Discuss, Learn and be Happy דיון בשאלות

help brightness_4 brightness_7 format_textdirection_r_to_l format_textdirection_l_to_r

מדד ה-precision בבעיית סיווג בינארית מחושב כ:

1
done
by
מיין לפי

במשימת NER - זיהוי ישויות (Named-Entity Recognition) נקבל טקסט ונרצה לחלץ ממנו ישויות מסוגים ספציפיים - בדרך כלל אנשים, מקומות, חברות מסחריות וישויות גאו-פוליטיות. למשל, במשפט: "'נאום הסופגניה' הוא הכינוי לנאומו המכונן של הנשיא קנדי במערב ברלין, אחרי הקמת חומת ברלין על ידי ברלין המזרחית. קנדי הכריז הגרמנית 'איש בין איין ברלינר' - משפט שיכול להתפרש כתמיכה במובלעת הדמוקרטית ([גם] אני ברלינאי) או כ'אני סופגניה'". הישויות במשפט הן: קנדי (PERSON), מערב ברלין (LOCATION), ברלין המזרחית (GEO-POLITICAL ENTIRY). סמנו את כל הישויות הגאו-פוליטיות במשפט הבא (סימון מילים שגויות עשוי להוריד נקודות): Washington and Beijing exchange threats after Trump's speech in Stockholm.

1
done
done
by
מיין לפי

נתון המשפט הבא: she took the lesson to heart (תרגום אפשרי: "היא הפנימה את הלקח". מילולית: "היא לקחה ללב את השיעור/לקח"). אלגוריתם הגזירה מצא שארבעה עצי גזירה שלהלן חוקיים בשפה

1
done
by
מיין לפי
by Dana Nehemia
Dana Nehemia 0 נקודות · יותר מ-6 חודשים
מוניטין: 1
משמעות המשפט הוא: נושא: היא נשוא: לקחה (לתשומת) לב מושא: מה נלקח לתשומת לב - הלקח. כלומר 'לתשומת לב' זה לא מושא (לאן נלקח) אלא חלק מהביטוי שמהווה את הפעל-נשוא. עצי הגזירה האלה הם בדיקדוק חסר הקשר, כלומר באופן תאורטי, אפשר "להחליף" גזירות מתתי עצים אבל מבנה המשפט לא ישתנה. אבל ב-A ו-C אם נחליף את ה-NP שתחת ה-VP נהרוס לא רק את המשמעות אלא גם את המבנה שמקנה את המשמעות, כלומר נהרוס את הביטוי - לקחת לתשומת לב. ב-D המבנה כבר מנותק לחלוטין כי ה-PP הוא לא חלק מה-VP. מזווית אחרת: ב-A הגזירה מתאימה (קצת על העוקם) למשפט בו הצירוף השמני the lesson toheart הוא יחידה שלמה כמו 'מבקר המדינה'. זה בבירור לא מתאים למשמעות המשפט בה הלקחת-ל[תשומת] לב היא היחידה המשמעותית. ב-C הגזירה מתאימה למשפט כמו: היא לקחה את התרופה ל(בעיות ה)לב. ב-D הגזירה מתאימה קצת על העוקם) למשפט כמו she took the kids to school. (היא לקחה את הילדים לגן).
by

ניתן להראות שקילות בין וקטורים של שיכוני מילים שקולים לוקטורים של PMI

1
done
by
מיין לפי

הנחת היסוד בבסיס השימוש במודלי טופיק (topic models) היא שבהינתן מסמך ניתן לסווג אותו לנושא יחיד ומוגדר

1
done
by
מיין לפי