Discuss, Learn and be Happy דיון בשאלות

help brightness_4 brightness_7 format_textdirection_r_to_l format_textdirection_l_to_r

בבעיית סיווג בינארי, דיוק האימון של מודל בעל אנטרופיה מותנית של אפס הנו

1
done
אם האנטרופיה המותנית שווה לאפס זה אומר שדיוק המודל הנו 100%, כלומר המודל תמיד צודק (רווח אינפורמטיבי מקסימלי)
by
מיין לפי

האנטרופיה של האירוע "יורד גשם" בשעה מסויימת צפויה להיות נמוכה בהינתן

1
done
נתוני מזג האוויר לא כוללים רק את הגשם, הם כוללים מדדים נוספים כמו טמפרטורה רוח וכו'. ככל שיהיה בידניו יותר מידע כך המודל יהיה יותר מדויק ובתשובה זו יש את כמות המידע המירבי (כתוצאה מכך תהיה אנטרופיה מותנית נמוכה והדיוק יהיה גבוה יותר)
by
מיין לפי

כל "הודעה" (massege) במודל סיווג מתייחסת ל-

1
done
done
בהקשר של ערוץ תקשורת, הודעה מתייחסת לתצפית ורשומה, הכוונה היא במודל ערות תקשורת מידע. כל הודעה היא בעצם תצפית או רשומה.
by
מיין לפי

מורכבות של המודל עץ החלטה תלוי ב-

1
done
done
אין קשר בין מורכבות המודל לדיוק או לשגיאה (לפחות לא קשר ישיר). מספר הקודקודים בעץ מראה על מספר הפיצ'רים בהם נעשה שימוש במודל. ככל שיש יותר פיצ'רים המודל מורכב יותר ולוקח יותר זמן.
by
מיין לפי

מה האינפורמציה ההדדית המקסימלית בין גיל (בשנים) לשנת לידה?

1
done
כדי לחשב אינפורמציה הדדית מקסימלית עושים log 2 של הערך. גיל מקסימלי נהוג הוא 120 ולכן לוג לערך זה ייתן 6.9.
by
מיין לפי

גיזום של עץ החלטה

1
done
done
הדרך הטובה ביותר להבין זאת היא לחשוב על השימוש באלגוריתם CART לגיזום עץ החלטה. לפני הגיזום הדיוק של האימון יותר גבוהה כי יש יותר עלים הערכים בהם מדוייקים ואם נבצע גיזום יהיו פחות עלים ולכן הסיווגים יתאחדו לעלה אחד- פחות דיוק. םעולה זו בנוסף תגדיל גם את שגיאת האימון (שתקבע ע"פ חוק הרוב).
by
מיין לפי

אי שיוויון FANO מאפשר להעריך את

1
done
done
לפי ההרצאה: אי שיויון FANO נותן אינפורמציה לשגיאה אפשרית של המודל. האנטרופיה המותנית באי שיויון נותנת חסם תחתון על השגיאה המינימלית שזה במילים אחרות להגיד מה הדיוק המקסימלי.
by
מיין לפי

הירידה הכללית באנטרופיה מותנית שווה ל-

1
done
כשבודקים לפי איזו תכונה לפצל את הרמה ברשת IFN עושים את זה לפי IG וכדי לחשב אותו צריך לחשב את האנטרופיה המותנית. כלומר ירידה כללית באנטרופיה המותנית מגדילה את הIG (אינפורמציה הדדית) בין הרשת למשתנה המטרה.
by
מיין לפי

הבעיה שהמדד Information Gain Ratio מנסה לפתור היא

1
done
done
הבעיה של IG היא שכשיש משתנה עם הרבה ערכים אז הרווח האינפורמטיבי שלו גדול יותר כלומר הוא מעדיף משתנה עם יותר ערכים. אם נפצל לפי משתנה שיש לו הרבה ערכים אז עבור כל ערך יהיה מספר קטן של תצפיות (קבוצה קטנה) וכשיש קבוצה קטנה אז ההסתברות לקבל סיווג זהה לקבוצת התצפיות בקבוצה עולה. כך גם להפך אם יש יותר תצפיות בקבוצה אז ההסתברות שלכולם יהיה סיווג זהה יורדת.
by
מיין לפי

חוק בעל משקל חיובי ברשת IFN שנבנתה עבור בעיית סיווג בינארית משמעותו

1
done
לפי הנוסחה לישוב משקלים ברשת IFN עבור קןדקןדים טרמינליים. עבור קודקוד טרמינלי יוצאים שני קשתות לשני הסיווגים הקיימים (בינארי) וכשמחשבים את המשקל לפי הנוסחה אז הדבר היחיד ששונה בהצבה הוא הערך במכנה שבתוך הלוג שהוא אומר מה ההסתברות של כל סיווג ביחס לכלל התצפיות. שאר ההצבות זהות לשני הקשתות. עבור ההסתברות הגבוהה יותר של סיווג ביחס לכלל התצפיות נקבל משקל חיובי ועבור זה עם הסתברות נמוכה יותר נקבל משקל שלילי.
by
מיין לפי