המטרה של Consistent Hashing, היא שבמצב בו יש קריסה של Node, נצטרך להעביר מינימום של קבצים ל-Node-ים אחרים. בפועל, זה רלוונטי גם עבור הוספה, כי זה מאפשר מינימום תעבורה במידת הצורך להזזת קבצים בין Nodes שונים.
נושא השאלה הוא Hadoop/Spark. ציינו נכון/לא נכון עבור כל הצהרה:
א. השימוש ב- redundant execution משייך מחדש reducers שפעולתם איטית יחסית ל-Mappers אשר מופקדים על מספר ה-reducers הקטן ביותר
2019 מועד ג'
Spark יכול לרוץ גם באופן עצמאי ללא HDFS או מערכת FileSharing.
הרחבה מדוקטור צ'אט:
Spark הוא מנוע לעיבוד נתונים בזיכרון (In-Memory Processing) שיכול לקרוא נתונים ממקורות שונים.
בניגוד ל-Hadoop, שלא יכול לפעול ללא מערכת קבצים מבוזרת כמו HDFS,
Spark יכול לפעול בצורה עצמאית (Standalone Mode) ולקרוא נתונים ממקורות שונים.
שאלה פתוחה במקור
הסבר מהו ה-inconsistency window (משפט אחד). תאר צורה אחת של eventual consistency (1-2 משפטים)
2019 מועד ג'
Semi-Join הוא Join חלקי, המשמש כאשר רוצים לדעת אם יש התאמה בין שתי טבלאות – אך בלי להביא את כל הנתונים מהטבלה השנייה.
בניגוד ל-Inner Join, ה-Semi-Join לא מחזיר את כל העמודות מהטבלה השנייה, אלא רק את הנתונים הרלוונטיים מהטבלה הראשונה, בהתאם להתאמה.
Semi-Join שולח רק את המפתחות הדרושים ולא את כל הרשומות - זה מקטין את התעבורה ברשת
בניגוד ל-Join רגיל, שבו לעיתים צריך לשכפל את הנתונים בין השרתים כדי לבצע התאמה מלאה, Semi-Join מסתמך רק על מפתחות זיהוי, ולכן אין צורך בשכפול נתונים מלא - לכן לא מצריך שכפול
אילו מההצהרות הבאות נכונה לגבי ההבדלים בין Hadoop V1 ל- Hadoop V2 (יתכנו תשובות מרובות):
2019 מועד ג'
נושא השאלה הוא Recovery. ציינו נכון/לא נכון עבור על הצהרה:
א. בעת ביצוע recovery תוך שימוש ב-fuzzy checkpoint, נקודת ההתחלה של תהליך ה-recovery היא נקודת ההשלמה של ה-checkpoint.
2019 מועד ג'
נושא השאלה הוא Recovery. ציינו נכון/לא נכון עבור על הצהרה:
ב. Write ahead logging אינו הכרחי לשמירה על תקינות בעת recovery אם משתמשים באופצית force.
2019 מועד ג'