פותחת חזית מול מגדל השן- והפעם: איך מסיקים מסקנות ממחקרים |

לפני שנחזור לבעיות המנהליות בגישה האקדמית, אני אשמח לעשות פאוזה קצרה ולדבר על אחד מהדברים שאני הכי אוהבת- סטטיסטיקה.

סטטיסטיקה היא נסיכת המדעים, הילדה השקטה שאף אחד לא מדבר איתה במהלך השנה אבל כולם ניגשים אליה לצלם סיכומים לקראת המבחן. היא רואה את התמונה הרחבה אבל גם את המקרים המיוחדים בה. אין על סטטיסטיקה. אבל בידיים הלא מיומנויות, או בידיים המיומנויות יתר על המידה- היא כלי מסוכן ביותר.

אחד הספרים שעומדים עכשיו על המדף בחדר העבודה החדש שלי הוא ספרון קטנטן ועתיק משנת 1973, שנקרא "How to lie with statistics". הדפים שלו כל כך מצהיבים בשלב הזה, שנאלצתי להוריד את גרסת האודיו שלו. אבל אחד מהציטוטים בהתחלה שווים את אחזקת הספר הפיזי הוא:

"This book is a sort of primer in ways to use statistics to deceive. The crooks already know these tricks; honest men must learn them in self-defence”.

אז הפעם- על האופן בו המחקר בעולם האקדמי מבוצע, ולמה כדאי לשים לב כשאנחנו קוראים ממצאים.

בעיות מתודולוגיות

מדגם לא מייצג

כפי שהזכרתי בפוסט הקודם, מרבית המחקרים במדעי החברה מתבצעים על סטודנטים אחרים. בנוסף, דיברתי כבר בעבר על עניין פערי המידע המגדריים שנובעים ממחקרים שנערכים על מדגם בו אין ייצוג סביר לנשים. ישנה מגמה של מודעות גוברת בשנים האחרונות, ויותר ויותר נשים כן משתתפות בניסויים קליניים של תרופות ומכשור רפואי, אך זה עדיין לא מספיק כדי לגשר על הפער.

שטח מחקר לא מייצג

אבל יש כמה בעיות נוספות במתודולוגיה. למשל- מדגמים קטנים מידי או סביבת מחקר מצומצמת מידי. לפני כמה שבועות נקלעתי לדיון פייסבוק בנוגע למחקרים בתחום השינה אצל ילדים. כותבת הפוסט העלתה מאמר של פרופסור מכובד שעוסק, לא סתם, בטיוב המתודולוגיה המחקרית בתחום. אחד מהמאמרים המצוטטים ביותר שלו נערך על ילדים ביסודי, במטרה לבדוק האם יש קשר בין איכות השינה שלהם ליכולות הנוירו-התנהגותיות שלהם. כדגימה, 120+ ילדים נוטרו בשנתם במשך 5 לילות. המסקנה הייתה שיש השפעה של שינה קטועה על ביצועים במהלך היום. הקטע הממש משעשע, זה שיש לו מחקר אחר, שבחן "כמה ימים זה מספיק לנטר כדי להסיק מסקנות", והמסקנה הייתה ששבוע (כמו שהם בחנו במחקר הראשון) זה ממש לא מספיק, וש-28% מהתוצאות היו בלתי שמישות לצרכי המחקר.

הרי כל הורה לילדים קטנים יכול להעיד שככל שהם ישנים פחות- ככה ה"ביצועים" שלהם במהלך היום יותר מרשימים

הטיות מאופן עריכת המחקר

חכו זה עוד לא הכל. לדרך בה בנויים שאלוני מחקר, ולאופן בו המשתתפים נשאלים את השאלות הללו, יש השפעה מכרעת על התשובות שלהם. סדר השאלות שמוצגות, מי שואל אותם, הכל הכל- משפיע על הממצאים. הטענה היא לא רק שמשתתפי מחקרים נוטים לשקר על מנת להיתפס בדרך מסוימת (למרות שהם כן), אלא שכמות ההטיות הקוגניטיביות המתלוות להשתתפות במחקר היא עצומה, החוקר עצמו מכניס את נקודת המבט הסובייקטיבית שלו לניתוח התוצאות, ועצם המחקר עצמו מזהם את השדה המחקרי. וכל אלו הם עוד הדברים שנעשים בשוגג, פשוט כחלק מהפרוצדורה התקינה והמקובלת של שיטת המחקר האקדמי.

בעיות במדדים

הגדרת משתנים מעוותת

כשאנחנו עורכים מחקר, אנחנו בעצם רוצים לבודד משתנים שונים של תופעה, ולהבין את מערכות היחסים ביניהם. מה ההשפעה של חיים במדינה במצב חירום תמידי על רמות שביעות הרצון של התושבים? 'חיים במצב חירום' הוא משתנה אחד, 'רמת שביעות רצון של התושבים' היא משתנה שני. לא נכנס עכשיו למשתנה תלוי ומשתנה בלתי תלוי, כי יש קשרים מורכבים יותר ממשופע-משפיע, אבל בגדול- יכולים להיות הרבה משתנים והרבה קשרים מסועפים ביניהם.

למשתנים יש הגדרות נומינליות (מה המשמעות של "רמת שביעות רצון של תושבים"), והגדרות אופרטיביות (איך אנחנו יכולים לבדוק את זה במחקר שלנו- מה השאלות שנשאל). וההגדרות הללו יכולות לסבול משלל פערים וחורים ובעיות שמשפיעים על האופן בו המחקרים מסיקים מסקנות. אם נמשיך את אותה דוגמה- החלטנו שרמת שביעות רצון היא "סך כול הרגשות שיש לאדם כלפי חייו". הגדרה כללית ומעורפלת מאוד אך משתמשים בה די הרבה. והדרך לבדוק את המשתנה הזה היא לשאול את המשתתפים שלנו כמה פעמים הם בכו מעצב בחצי השנה האחרונה. הנתון שיתקבל יוכל לתת לנו תמונה כללית של כמות הרגשות השליליים, אבל האם יכול להיות מצב שאדם גם בכה 5 פעמים בחודשים האחרונים וגם די שבע רצון מחייו באופן כללי? כמובן.

וזה אפילו בלי לקחת בחשבון את האנשים שלא בכו בכלל בחצי השנה האחרונה אבל מאוד לא שבעי רצון מהחיים שלהם

תוקף ומהימנות של כלי מחקר

הניסיון לפתור את העניין של חוסר ההלימה בהגדרות המשתנים הוביל ליצירה של כלי מחקר מוכרים ומוערכים. בקהילה האקדמית ישנם סטנדרטים מקצועיים מסוימים לעבודה מחקרית, ושימוש בכלי מחקר שנמצאו כטובים בשטח, יכולים לעזור לנו לשלוט קצת על הכאוס של הגדרות המשתנים. כלי מחקר הוא פרוטוקול אבחון, שכולל את הגדרת המשתנים, השאלות, לפעמים גם את התשובות האפשריות, ואת המשמעות שלהן. לכלים האלו ניתנים ציוני תוקף ומהימנות.

כלי מחקר טוב ושאפשר להסתמך על הממצאים שלו צריך להיות תקף ומהימן. ב-"תקף" הכוונה היא שהוא בוחן את מה שהוא רוצה לבחון, וב-"מהימן" הכוונה היא שהוא ימדוד את מה שהוא מודד באופן עקבי. אם אנחנו הולכים לעשות בדיקת קורונה והאחות מוציאה מבחנת דם במקום מטוש- יש לנו בעיה בתוקף כי היא לא בוחנת את מה שהיא צריכה. אם עשינו בדיקת קורונה והיא מראה לנו תוצאות שונות בטווח זמן קצר- הבדיקה לא מהימנה.

הבעיה היא שתוקף ומהימנות נמדדים פוסט הוק- לאחר שהמחקר בוצע ולפני ניתוח הנתונים. והתוצאות מושפעות במידה רבה מהמדגם. מה שאומר שכלי שקיבל ציון מהימנות גבוה מאוד כשנערך על נבדקים מתרבות מסוימת, יכול לקבל ציון נמוך יותר עם נבדקים מתרבות אחרת.

בעיות בניתוח הסטטיסטי

מחקרים כמותניים מסתמכים על ניתוח סטטיסטי. בכל תחום באקדמיה ניתן להשתמש במחקר כמותני, ועל אף שהוא לא נותן תמונה נקודתית בעלת תוכן נרטיבי של התגלמות התופעות השונות לכל אחד מפריטי המחקר כמו במחקר איכותני, הממצאים הכמותניים נותנים לנו מבט ציפור עם מספרים אודות התופעות. מין סיכום שכזה. וזה ממש ממש אחלה. הבעיה היא שניתוח סטטיסטי הוא כלי מאוד מאוד טריקי. לא מבחינת המורכבות שלו בהכרח, אלא מבחינת הקלות שבה ניתן לעוות אותו, במודע או שלא במודע.

שימוש במדדי המרכז הלא נכונים

בטוחה שבשלב הזה המודעות לבעייתיות של הממוצע גברה מספיק, כדי שאני לא אצטרך להתעמק על העניין יותר מידי. בגדול- ממוצע הוא מדד בעייתי שלא בהכרח מייצג את שלל המקרים שהוא מכסה, אלא מושפע בקלות מערכים קיצוניים. כשאומרים לנו שהשכר הממוצע במשק הוא 16,000, זה בגלל שיש לנו הרבה הייטקיסטים שמרוויחים מעל 30 אלף שקל בחודש, ולא בגלל שרובנו מרוויחים קרוב ל-16 אלף. עדיף תמיד לצד הממוצע להציג את הטווח, את השכיח, ואת החציון.

מובהקות סטטיסטית לא מייצרת עובדה

אבל בעיות נוספות קיימות גם סביב המובהקות הסטטיסטית. מובהקות סטטיסטית היא מדד שיכול להגיד לנו כמה סבירה התוצאה שקיבלנו שהיא אכן נכונה ורלוונטית, בעצם- מדד שבודק מה ההסתברות, בהתחשב בנתונים שנאספו, שטעינו בהשערה שלנו. יש נוסחאות לחישוב שלה, והיא נעה בין 0 ל-1, כש-1 הוא מובהקות מוחלטת. האפקט של המובהקות הסטטיסטית הוא שכל ממצא שהוא מובהק ברמה מספקת- נתפס כעובדה מוגמרת, אמת לאמיתה, שניתן לתחום אותה בכמה הסתייגויות בשביל הקישוט, אבל לא לערער עליה. מובהקות= עובדה מחקרית. על זה אנחנו מבססים את כל ה"עובדות" הקיימות.

בפועל, המובהקות היא "סיכוי", הסתברות, שבהינתן הנתונים שאספנו, נקבל את התוצאה שקיבלנו. כשמומחי המעבדה הפורנזית מגישים דו"ח לבית המשפט על התאמת טביעות אצבע של הנאשם לטביעות שנמצאו בזירה- הם כותבים שהממצאים מובהקים ברמת 95%. כלומר, יש סיכוי של 5% ש-וואלה, טעינו, זה לא הטביעות אצבע שלו. כדאי לקחת בחשבון שגם מובהקות היא מדד שמבוסס על הנתונים עצמם, ושמובהקות גבוהה מידי יכולה להעיד על הטיה מסוימת של הנתונים עצמם. 95% היא הרמה השכיחה של מובהקות שמשתמשים בה. יש מחקרים שמשתמשים גם ברמת מובהקות של 90%.

בכל שנה בארה"ב ישנן יותר מ-1,900 טעויות בזיהוי של טביעות אצבעות

מתאם הוא לא סיבתיות

ונניח, נניח שקיבלנו ממצאים מדהימים, ברמת מובהקות של 99%, עם כלי מחקר מתוקף ומהימן ונהדר ומוערך בכל הקהילה המדעית- מה בעצם הטענות שלנו במחקר הזה? קיימות מספר רמות של טענות שיכולות לעלות ממחקר מדעי. כאשר אנחנו אוספים נתונים ומציגים את אופן ההתפלגות שלהם זוהי סטטיסטיקה תיאורית. אם נעבד את הממצאים שלנו קצת יותר ונמצא מערכות יחסים של השפעה ביניהם- A עולה כש- B עולה, זהו מתאם- קורולציה. זוהי כבר סטטיסטיקה היסקית. אבל אם נצליח להוכיח את המתאם במדגם סביר, לנטרל משתנים מתערבים אפשריים, ולגלות מה הגיע לפני מה- נוכל להגיע לטענה לסיבתיות. (עוד על הנושא- פה). אבל זה כאב ראש ומחקרים רבים בכלל לא מנסים להוכיח סיבתיות (מה שהם כותבים במסקנות שלהם זה כבר עניין אחר לגמרי).

עד כאן לפעם הזאת. בפעם הבאה, קצת על האופן בו מחקרים מתפרסמים, מי עובר עליהם כדי לוודא שהם סבירים לפרסום, ומי עושה מזה קופה.