מספר החלוקות האפשריות של קובץ נתונים לאשכולות אינו נקבע על פי מספר האשכולות או מספר התצפיות בקובץ. במקום זאת, מספר החלוקות או הדרכים האפשריות לאשכול הנתונים תלוי בהתפלגות הבסיסית של נקודות הנתונים, באלגוריתם המשמש לאשכולות, ובכל אילוצים או הנחות שיושמו במהלך תהליך האשכול.
מספר האשכולות ומספר התצפיות אמנם ממלאים תפקיד בבחירה ובפרשנות של תוצאות אשכולות, אך הם אינם קובעים ישירות את המספר הכולל של חלוקות אפשריות של הנתונים לאשכולות. אלגוריתמי אשכולות שואפים לקבץ נקודות נתונים דומות יחד, והתוצאה יכולה להשתנות על סמך גורמים כמו הפרמטרים של האלגוריתם ומאפייני הנתונים.
לסיכום, מספר החלוקים האפשריים של קובץ נתונים לאשכולות מושפע מגורמים שונים מעבר למספר האשכולות או התצפיות, מה שהופך את "אף אחד מהדברים לעיל" לתשובה הנכונה.
*** מועד א 2018 ***
קבוצת-על של קבוצת פריטים סגורה(closed) יכולה לכסות:
בהגדרה קבוצה סגורה היא קבוצה שאין לה קבוצת על עם אותו מספר טרנזאקציות, והמספר יכול רק לרדת כי אחרת הקבוצה לא תהיה סגורה
Shachar Adam0 נקודות ·
יותר מ-6 חודשים
( תגובות)
מוניטין: 126
קבוצה סגורה היא תבנית שכיחה שאין לה תבנית על בעלת אותו Support
** מועד ב 2018 **
לאחר בניית עץ החלטה ב-R באמצעות הספריה CARET נבנתה confution matrix באמצעות הפקודה
(predicted, reference= testing$Class)CM<-confutionMatrix. איזה מדד לא ניתן לחשב מתוך פלט הפקודה
בקוביית נתונים, apex מייצג את הרמה המסוכמת או המצטברת ביותר של היררכיית הנתונים. זו הנקודה שבה כל הממדים מצטברים לרמה הגבוהה ביותר האפשרית שלהם. ככל שאתה מתרחק מהקודקוד ויורד במורד ההיררכיה, אתה ניגש לרמות מפורטות יותר של נתונים, ומפרק את המידע לקטגוריות או ממדים עדינים יותר.
לדוגמה, שקול קוביית נתונים המייצגת נתוני מכירות עבור עסק קמעונאי. קודקוד הקובייה עשוי לייצג את סך המכירות עבור כל המוצרים, כל האזורים וכל תקופות הזמן. כאשר אתה מטה בממדים, אתה עשוי לראות סכומי ביניים עבור מוצרים, אזורים או תקופות זמן ספציפיים, ובסופו של דבר מגיעים לרמת הפירוט הנמוכה ביותר, כגון מכירות של מוצרים בודדים באזור ספציפי במהלך תקופת זמן מסוימת.
** מועד א 2017 **
נתון: h- מודל כלשהו ממרחב המודלים האפשריים h, H'-מודל אלטרנטיבי, D- כל האוכלוסיה. מהו מצב של התאמת יתר (overfitting) של המודל h?
המצב של התאמת יתר- טעות האימון מאוד קטנה כי המודל מתאים את עצמו לתפיות האימון אך בשל כך המודל לא טוב עבור רשומות טסט חדשות. כלומר הוא התאים את עצמו יותר מדי לטריין.
** מועד א 2017 **
המטרה העיקרית של מפתחות מלאכותיים (Surrogate keys) במחסני הנתונים היא
אנו רוצים ליצור איזושהי שכבת אבסטרקציה בין מחסן הנתונים למערכת התפעולית לכן נשתמש במפתחות מלאכותיים שמשנים את המפתחות לנומריים ב-DWH
Shachar Adam0 נקודות ·
יותר מ-6 חודשים
( תגובות)
מוניטין: 126
מפתחות סרוגייט יוצרים הפשטה בין המערכת התפעולית למחסן הנתונים על ידי מתן מזהה ייחודי לכל רשומה במחסן הנתונים שאינו תלוי במפתחות הטבעיים במערכת התפעולית. זה מאפשר להשתמש במחסן הנתונים לניתוח ללא צורך לדאוג לשינויים במפתחות הטבעיים במערכת התפעולית.
** מועד א 2017 **
מופע במלה במסמך טקסט (מופיעה/ לא מופיעה) הוא משתנה מסוג
אי מופע של מילה במסמך טקסט- חסר משמעות לכן משתנה מסוג אסימטרי
Shachar Adam0 נקודות ·
יותר מ-6 חודשים
( תגובות)
מוניטין: 126
משתנה בינארי סימטרי: במשתנה בינארי סימטרי, כל מונח (מילה) מיוצג כקיים (1) או כחסר (0) במסמך. ייצוג זה הוא סימטרי מכיוון שהוא מתייחס לנוכחות ולהיעדרו של מונח כחשובים באותה מידה. ההתמקדות היא אם המונח קיים או לא, ולא נעשית הבחנה ספציפית בין שתי המדינות.
משתנה בינארי א-סימטרי: לעומת זאת, משתנה בינארי א-סימטרי יכול לייצג תרחיש שבו שני מונחים קשורים באופן ספציפי, כגון מונח אחד המרמז על היעדר מונח אחר.
Shachar Adam0 נקודות ·
יותר מ-6 חודשים
( תגובות)
מוניטין: 126
העתקתי מGPT ויש פה טעות. בגדול במשתנה אסימטרי מונח אחד מצביע על אחר
** מועד א 2017 **
השאלה
האלגוריתם k Nearset Neighbors מניח ש-