הטייה בשירות איסוף גודל המדגם:
● בעיה בגודל המדגם-צריך לבצע מדגם מכל מקום בצורה הוגנת ,אך יש עניין של גודל מדגם גם כן.
● כמה שיש פחות DATA כך יש יותר שגיאה וגם הפוך-כמה שגודל הDATA עולה כך השגיאה יורדת.
● למה זה יכול להוות בעייה?כאשר יש מדגם ענק והדיוק שלו גבוהה עדיין יש בעיה כי בנית מודל על
אוכלוסייה אחת ,ויש מיעוטים באוכלוסיה והם לא באים לידי ביטוי כמו הרוב.
● במצב תיארנו אם נשתמש במודל זה כדי להחליט מי נכנס לאוניברסיטה אנחנו מבצעים הסתברות
של הטלת מטבע עבור המיעוט. זה הסתברות נמוכה שהם יגיעו.
● אנשים לא מעריכים כמה זה פוגע וזה עושה הטייה נגד אנשים ללא כוונה וללא מודעות בכך שבניית
מודל מאוד מדויק.
● איך לתקן?אם יש הטייה נגד נשים ויש דאטא סט של 100 גברים ו 25 נשים אז נכפיל את הדאטה
סט של הנשים פי 4 .
● עוד דרך להתמודד עם זה-היא ליצור דאטה פיקטיבי . זה בעיה לא רק לדיוק של המודל וגם לפוריות
של המודל.