בעיית האותנטיות של הנתונים- על חוק בנפורד ונתוני הקורונה

בעיית האותנטיות של הנתונים- על חוק בנפורד ונתוני הקורונה

מאת: אחוה יאלר צוריה, מידענית

עברו כשלושה חודשים לערך מאז הפוסט האחרון בסדרת האינפודמיות וסאגת הקורונה. מאז הספקנו לצאת מהסגר ולחזור ל'שגרת קורונה' ואז לאט לאט לראות את התדרדרות המצב עד להודעה אתמול על כניסה לסגר שני שיתחיל בראש השנה. בין לבין הופצצנו במידע כוזב, כמו הידיעה על קריסת בתי החולים ברחבי הארץ בו בזמן שמשרד הבריאות מפרסם על נתוני תפוסה של 67% במחלקות הקורונה השונות, וסיפורי זוועות שמתגלה לאחר מכן שאף פרט בהם לא נכון.

ובתוך כל זה, אני יושבת עכשיו בבידוד ביורוקטי, שאצא ממנו לתוך סגר פוליטי, בעולם שמבין בקריאת נתונים כמו שאני מבינה בסלנג של אופי לחם (לא, באמת, מזמינה אתכם לנסות ולקרוא פוסטים בקבוצות בנושא ולראות כמה מילים אתם מזהים).

אני רק רוצה לאפות לחם קארן, לא לבנות תחנת חלל פיראטית. מה זה 80% הדרציה??

לפני כמה שבועות ישבתי לי מול הנטפליקס וראיתי פרק בסדרת המופת Connected: The Hidden Science of Everything, ובפרק 4 שנקרא "Numbers" מתמקד המגיש בעיקר בחוק בנפורד המסתורי. הצפייה בפרק הזה פשוט הציתה את הדמיון שלי, ונזכרתי בהתלהבות כמה מספרים הם תופעה מרתקת. זה נכון שחונכו לשנוא מתמטיקה וחישובים, אבל כל קשר בין הנוסחאות המתישות לחישוב פרבולה מכיתה ח' לפילוסופיה מאחורי המספרים, הוא מקרי בהחלט.

הו חוק בנפורד, אתה יפה כמו ציור

אז מה הוא אותו חוק בנפורד מסתורי? האמת שיש היסטוריה די מרתקת סביבו, ואם נתקצר אותה- הוא סוג של חוק טבע שהתגלה פעמיים על ידי שני אנשים שונים- מתמטיקאי בשם סיימון ניוקום ב-1881, ואז שוב על ידי פיזיקאי בשם פרנק אלפרד בנפורד ב-1938. החברה ממדע גדול, בקטנה סיכמו את הקונספט בצורה יפה, אבל אני אנסה להסביר במילים שלי:

באופן מדהים ובלתי הגיוני כמעט, אם תיקחו המון המון מספרים שנראים כביכול רנדומליים, ותסדרו אותם בשורה, ואחר כך תקחו את הספרה הראשונה בכל מספר, אתם תשימו לב לדפוס מאוד משונה. זה קצת מסובך ומצריך דוגמה, אז הנה: אם תאספו לטבלה אחת את נתוני אורך כל הכבישים בארץ (כביש 1 הוא 97 ק"מ, כביש 5 הוא 37 ק"מ) , ותרשמו בטור נפרד את הספרה הראשונה של אורך כל כביש (9 ו-3 במקרים האלה), יהיו לכם בדיוק 30.1% של הספרה 1, 17.6% של הספרה 2, 12.5% של הספרה 3, וכן הלאה.

רגע, מה?

החוק הזה תקף לכל המספרים האותנטיים (שלא ניתנים במכוון, כמו מספר רכב נגיד, או שלא עברו מניפולציה או שינוי) באשר הם. הוצאות חודשיות, דיווחי מס, נתוני תמותה, מספר חיפושים של מושג מסוים- הכל הכל עונה לחוק בנפורד. אם תאספו את הספרות הראשונות של כלל המספרים שמייצגים ערכים שונים של משתנה מסוים, הם תמיד יתפלגו באותו האופן. לא מאמינים לי? לכו תבדקו.

אז מה?

יש לזה כל מיני שימושים, אבל השימוש העיקרי של זה כיום באופן שוטף, הוא חקירה של העלמות מס. כאדם מתעסק עם הנתונים של דיווח המס שלו, המספרים כבר אינם אותנטיים ולא נוצרו באופן טבעי, ועל כן לא יענו על החוקיות של חוק בנפורד, וככה אפשר יהיה לזהות את הרמאות. זוהי השיטה הרשמית לזיהוי העלמת מס באיחוד האירופי, וככל הנראה גם בארה"ב רק שהם לא מוכנים לאשר זאת. יש כנסים שלמים של חובבי מתמטיקה או אנשי מקצוע שונים שעושים שימוש בחוקיות המוזרה הזאת כדי לחשוף רמאויות או נתונים שעברו מניפולציה מסוימת.

כמובן שבדקתי את נתוני הקורונה, מה אתם חושבים שאני? חובבנית?

מי שיצא לו לדבר איתי קצת בחצי השנה האחרונה יודע מה דעתי. יוצא לי להסביר שוב ושוב, ואז שוב ושוב, שאני לא מכחישת קורונה. אני לא חושבת שביל גייטס מנסה ליצור כמיטריילס שישמידו את כולנו באמצעות 5G. קורונה היא וירוס אמיתי, קשוח במיוחד, עם השפעות בריאותיות לא ידועות לטווח הקצר והארוך, ולא מזימה להשתלטות עולמית.

מצד שני, קיימת פאניקה מוחלטת בקרב כולם מלבד אנשי המקצוע שעוסקים בדבר (פרופ' עידית מטות היא אחת מהם, אבל היא ממש לא היחידה). אני לא רופאה, ולא אפידמיולוגית. אני מידענית, והדבר היחיד שאני עוסקת בו זה איסוף של נתונים והסקת מסקנות מנתונים. עוד בתחילת מרץ טענתי כי הבעיה האמיתית היא שהנתונים שעליהם אנחנו מסתמכים לקבלת ההחלטות שלנו הם לא מלאים, ולא אחידים, ושיש להיזהר במסקנות שאנחנו קופצים אליהם כשיש כל כך הרבה פערי מידע.

בתוך אלה ניתן להזכיר את האופן שבו בדיקות הקורונה נעשות בארץ, האופן שבו מוגדרים חולים ברמות חומרה שונות לעומת מדינות אחרות, האופן בו נקבע מי נפטר מקורונה ומי לא, ועוד ועוד. איסוף נתונים איכותי מתחיל בהגדרה טובה של המשתנים, וכשאנחנו יודעים בוודאות שכל מדינה מגדירה את המשתנים "נשא קורונה", "חולה קשה בקורונה", ו- "נפטר מקורונה" בצורה אחרת, צריך לקחת את זה בחשבון כשאנחנו משווים נתונים. או לכל הפחות להשתמש בהמרה, כפי שעושים במטבעות, מידות, טמפורטורות, וכדומה.

נראה שכוסות מדידה רגילות הן לא מספיק טובות עבור חובבי אפיית הלחם

המחקר הקצר שערכתי

כדי לבחון את העניין, ישבתי בתאריך ה- 12.8.2020 מול המחשב ואספתי נתונים מעודכנים על נדבקים ונפטרים מקורונה מסביב לעולם מאתר Worldometer. סידרתי את הנתונים בטורים באקסל, טור ראשון של נתוני הנדבקים סה"כ, טור שני של נפטרים סה"כ, לפי מדינות ברחבי העולם. בטור השלישי ציינתי את הספרה הראשונה בכל מספר נדבקים מכל מדינה, בטור הרביעי את הספרה הראשונה בכל מספר נפטרים מכל מדינה.

בשלב הבא בדקתי את השכיחות של כל אחת מהספרות הראשונות- כמה פעמים מופיעה הספרה 1, כמה פעמים הספרה 2, עד הספרה 9.

חדי העין ישימו לב שהמספרים קצת אוף

הנה הנתונים שאספתי ומתחת הסבר קצר והסתייגויות:

כמו שאפשר לראות, המספרים באדום הם לפי חוק בנפורד, והאפורים הם הפטירות והנדבקים. אפשר לראות ככה את הסטיות של כל נתון. המסקנה היא שהנתונים על מאומתי קורונה ונפטרים מקורונה אינם אותנטיים- כלומר, אינם נוצרים באופן טבעי לחלוטין.

"ידעתי שאת מכחישת קורונה!"

תצטרכו להחזיק רגע את הסוסים שלכם. זה שהמספרים לא אותנטיים לא מאשש את תיאוריית הקונספירציה על ביל גייטס. ב'מספרים לא אותנטיים' אין הכוונה למניפולציה מוכתבת מראש עם יעד לסדר עולמי חדש, מספרים לא אותנטיים יכולים להופיע גם במקרים שאין אחידות בהגדרת המשתנים, או שאופן הדיווח מחסיר נתונים או לא מדויק. הנקודה היא שיש בעיה בנתונים שנאספים, מועברים לציבור ומשמשים לקבלת החלטות, ואפשר לראות את חוק בנפורד כראייה מאששת לכך.

הסתייגות נוספת היא שהסטייה היא יחסית מינורית, לפחות במונחים שלי אישית כאדם שרואה נתונים וסטיות באופן קבוע. מצד שני, אני לא עובדת עם חוק בנפורד בחיי היום יום, ויכול להיות שסטייה של 0.8 היא ממצא מובהק במקרה הזה. ניסיתי לחפש מהם הקריטריונים לפיהם סטייה של סט נתונים 'עובר' או 'לא עובר' את מבחן בנפורד, אבל לא מצאתי משהו ברור. אם יש לכם מושג במקרה, אני אשמח לשמוע.

6 Replies to “בעיית האותנטיות של הנתונים- על חוק בנפורד ונתוני הקורונה”

  1. מדהים פעמיים. זה לא רק שחוק בנפורד מדהים, אלא גם הבדיקה שעשית (שכמובן עשו אותה באתרים רישמיים ברחבי העולם) מדהימה באיכותה. כל כך פשוט ונכון. בגדול, אני סובר שמנסים לשנות מספרים של חולים אבל גם אז, נופלים לתוך בנפורד. כי תמיד ירצו להוריד מספרים אלו. לכן אני ממליץ לך לנסות ולבדוק מספרים הפוכים. כמו לדוגמא מספרי מחלימים מדווחים. שם הנטייה לזייף מספרים גדולים. מחכה לשמוע מה מצאת.

    1. האמת שזה רעיון ממש טוב, אנסה למצוא רגע בתוך הכאוס של הסגר לבדוק את העניין. אעדכן!

  2. במאמר בשם Andrew Jackson (ETH Zurich, Switzerland) and Malcolm Sambridge (RSES, ANU, Australia) שפירסמו Andrew Jackson (ETH Zurich, Switzerland) and Malcolm Sambridge (RSES, ANU, Australia) הם בדקו את סדרות דיווחי הקורונה היומיים (חולים ומתים) של כמעט כל מדינות העולם. ובחנו, כל מדינה בנפרד. הם גילו שהדיווחים של כמעט כל מדינות העולם, נמצאים במתאם גבוה עם התפלגות חוק בנפורד. אבל גילו כי מספר מדינות, "חשודות" עם נתונים שמתפלגים אחרת מהצפי של חוק בנפורד. בראש הרשימה עם סטיה גדולה ומתאם נמוך להתפלגות בנפורד נמצאת סין. ואחריה: הודו, בולגריה, קטאר, דרום קוריאה ויוון.

    1. זה מעניין, כי אני יכולה לחשוב על סיבות שונות לסטייה הזאת בכל אחת מהמדינות שהזכרת. כלומר, לסין אין היסטוריה ארוכה של שקיפות, אבל הם מאוד מאורגנים. הודו לעומת זאת- מיליארד איש ורובם חיים אוף גריד. דרום קוריאה היא דווקא נתון די מפתיע. לא מכירה מספיק את המדיניות והמאפיינים של המדינות האחרות, למרות שאני מנחשת שגם ביוון יש בלאגן כללי, וגם בקטאר יש רמה מסוימת של תיוך נתוני אמת. מעניין לבדוק את התוצאות האלו אל מול הסטנדרטים של בדיקות הקורונה במדינה, וההגדרות לחולים ונפטרים מקורונה, וגם לבדוק האם השונות שלהם עקבית בין המדינות- אולי יש מאפיין משותף שלהן שלא קופץ ישר.

  3. האם אפשר לקחת את חוק בנפורד ואת נתוני הקורונה ונתוני מגיפות אחרות ולמצוא תחזית להיעלמות הקורונה או מציאת חיסון?

    1. אז העניין עם חוק בנפורד שהוא אנליטי אבל לא היסקי. כלומר, ניתן להשתמש בו כדי לנתח תצפיות עבר, אבל אני אישית לא מכירה דרך להשתמש בו לצורך ניבוי.
      ניבוי הוא דבר מעט מורכב, ומסתמך על גורמים שונים. רוב העבודה הסטטיסטית ההיסקית היא למצוא את הגורמים המשפיעים האלה, להבין כמה גדולה ההשפעה שלהם, ולאיזה כיוון הם משפיעים.
      כדי לנבא את היעלמות הקורונה, יש צורך בהמון נתונים שפשוט אין לנו. גם הנתונים שיש לנו הם לא מהימנים ולעיתים גם לא תקפים.

כתיבת תגובה

האימייל לא יוצג באתר. שדות החובה מסומנים *