עידן הביג דאטה

טוב במספרים? מוקסם מנתונים? הצליל שאתה שומע הוא דפיקות הזדמנויות.

Mo Zhou נלכד על ידי I.B.M. בקיץ שעבר, כ-Yale M.B.A. טרי שנטבע, כדי להצטרף לשורות יועצי הנתונים הצומחים במהירות של חברת הטכנולוגיה. הם עוזרים לעסקים להבין פיצוץ של נתונים – תעבורת אינטרנט והערות ברשתות חברתיות, כמו גם תוכנות וחיישנים המנטרים משלוחים, ספקים ולקוחות – כדי להנחות החלטות, לקצץ עלויות ולהעלות את המכירות. "תמיד הייתה לי אהבה למספרים", אומרת גב' ג'ואו, שתפקידה כמנתחת נתונים הולם את כישוריה.

כדי לנצל את מבול הנתונים, אמריקה תצטרך עוד רבים כמוה. דו"ח בשנה שעברה של McKinsey Global Institute, זרוע המחקר של חברת הייעוץ, צפה כי ארה"ב זקוקה ל-140,000 עד 190,000 עובדים נוספים עם מומחיות "אנליטית עמוקה" ועוד 1.5 מיליון מנהלים בעלי ידע בנתונים, בין אם הוכשרו מחדש ובין אם עובדים.

האב סקיוריטי ביג דאטה

ההשפעה של שפע הנתונים חורגת הרבה מעבר לעסקים. ג'סטין גרימר, למשל, הוא אחד מהזן החדש של מדענים פוליטיים. עוזר פרופסור בן 28 בסטנפורד, הוא שילב מתמטיקה עם מדעי המדינה בלימודי התואר הראשון והתואר שלו, ראה "הזדמנות מכיוון שהתחום הופך יותר ויותר עתיר נתונים". המחקר שלו כולל ניתוח ממוחשב של פוסטים בבלוגים, נאומי קונגרס והודעות לעיתונות, ומאמרי חדשות, בחיפוש אחר תובנות לגבי איך רעיונות פוליטיים מתפשטים.

הסיפור דומה בתחומים מגוונים כמו מדע וספורט, פרסום ובריאות הציבור – סחף לעבר גילוי וקבלת החלטות מונעות נתונים. "זו מהפכה", אומר גארי קינג, מנהל המכון למדעי החברה הכמותי של הרווארד. "אנחנו באמת רק מתחילים. אבל צעדת הכימות, שהתאפשרה בזכות מקורות נתונים עצומים חדשים, תסחוף את האקדמיה, העסקים והממשל. אין אזור שיישאר ללא פגע".

ברוכים הבאים לעידן הביג דאטה. המגאריך החדש של עמק הסיליקון, תחילה בגוגל וכעת פייסבוק, הם מאסטרים בריתום את הנתונים של האינטרנט – חיפושים מקוונים, פוסטים והודעות – עם פרסום באינטרנט. בפורום הכלכלי העולמי בחודש שעבר בדאבוס, שוויץ, ביג דאטה היה נושא לשוק. דוח של הפורום, "Big Data, Big Impact", הכריז על נתונים כסוג חדש של נכס כלכלי, כמו מטבע או זהב.

ריק סמולן, יוצר סדרת הצילום "יום בחיים", מתכנן פרויקט בהמשך השנה, "הפנים האנושיות של ביג דאטה", המתעד את איסוף הנתונים והשימושים בהם. מר סמולן הוא חובב, אומר שלביג דאטה יש פוטנציאל להיות "לוח המחוונים של האנושות", כלי אינטליגנטי שיכול לסייע במאבק בעוני, בפשע ובזיהום. תומכי הפרטיות מתייחסים להשקפה עמומה, ומזהירים שביג דאטה הוא האח הגדול, בבגדי חברה.

מה זה ביג דאטה? מם ומונח שיווקי, ללא ספק, אבל גם קיצור לקידום מגמות בטכנולוגיה שפותחות פתח לגישה חדשה להבנת העולם ולקבלת החלטות. יש הרבה יותר נתונים, כל הזמן, צומחים ב-50% בשנה, או יותר מהכפלה כל שנתיים, מעריכה IDC, חברת מחקר טכנולוגי. זה לא רק עוד זרמי נתונים, אלא חדשים לגמרי. לדוגמה, ישנם כיום אינספור חיישנים דיגיטליים ברחבי העולם בציוד תעשייתי, מכוניות, מוני חשמל וארגזי משלוח. הם יכולים למדוד ולתקשר מיקום, תנועה, רטט, טמפרטורה, לחות, אפילו שינויים כימיים באוויר.

האב סקיוריטי שיווק

קשר את חיישני התקשורת הללו לאינטליגנציה מחשוב ותראה את עלייתו של מה שנקרא האינטרנט של הדברים או האינטרנט התעשייתי. גישה משופרת למידע מזינה גם את מגמת הביג דאטה. לדוגמה, נתונים ממשלתיים – נתוני תעסוקה ומידע אחר – עברו בהתמדה לרשת. בשנת 2009, וושינגטון פתחה את דלתות הנתונים עוד יותר על ידי הקמת Data.gov, אתר אינטרנט שמנגיש את כל סוגי הנתונים הממשלתיים לציבור.

הנתונים לא רק הופכים זמינים יותר אלא גם מובנים יותר למחשבים. רוב הזינוק של Big Data הוא נתונים בטבע – דברים סוררים כמו מילים, תמונות ווידאו באינטרנט והזרמים האלה של נתוני חיישנים. זה נקרא נתונים לא מובנים ואינו בדרך כלל גריסט עבור מסדי נתונים מסורתיים.

בחירות העורכים

ברוך הבא חזרה למשרד. זה לא כיף?

בצל חומת הגבול, מטבח קתולי מספק תקווה וארוחה חמה

PFAS: "הכימיקלים לנצח" שלא הייתם יכולים לברוח מהם אם תנסו
אבל הכלים הממוחשבים ללקט ידע ותובנות מההמון העצום של מידע לא מובנה של עידן האינטרנט צוברים במהירות. בחזית נמצאות הטכניקות המתקדמות במהירות של בינה מלאכותית כמו עיבוד שפה טבעית, זיהוי תבניות ולמידת מכונה.

טכנולוגיות הבינה המלאכותית הללו יכולות להיות מיושמות בתחומים רבים. לדוגמה, עסקי החיפוש והפרסומות של גוגל ומכוניות הרובוט הניסיוניות שלה, שניווטו אלפי קילומטרים של כבישים בקליפורניה, משתמשים שניהם בחבילה של טריקים של בינה מלאכותית. שניהם מרתיעים אתגרי Big Data, מנתחים כמויות אדירות של נתונים ומקבלים החלטות באופן מיידי.

עושר הנתונים החדשים, בתורו, מאיץ את ההתקדמות בתחום המחשוב – מעגל טוב של ביג דאטה. אלגוריתמים של למידת מכונה, למשל, לומדים על נתונים, וככל שיותר נתונים, כך המכונות לומדים יותר. קח את Siri, האפליקציה המדברת, עונה לשאלות באייפון, שאפל הציגה בסתיו שעבר. מקורותיו חוזרים לפרויקט מחקר של הפנטגון שפורק אז כסטארט-אפ בעמק הסיליקון. אפל קנתה את סירי ב-2010, והמשיכה להזין אותה במידע נוסף. כעת, כשאנשים מספקים מיליוני שאלות, סירי הופכת לעוזרת אישית מוכשרת יותר ויותר, המציעה תזכורות, דיווחי מזג אוויר, הצעות למסעדות ותשובות ליקום מתרחב של שאלות.

כדי להבין את ההשפעה הפוטנציאלית של ביג דאטה, הסתכלו על המיקרוסקופ, אומר אריק בריניולףסון, כלכלן בבית הספר לניהול סלואן של המכון הטכנולוגי של מסצ'וסטס. המיקרוסקופ, שהומצא לפני ארבע מאות שנים, אפשר לאנשים לראות ולמדוד דברים כפי שלא היו מעולם – ברמה התאית. זו הייתה מהפכה במדידה.

מדידת נתונים, מסביר פרופסור בריניולףסון, היא המקבילה המודרנית של המיקרוסקופ. חיפושים בגוגל, פוסטים בפייסבוק והודעות טוויטר, למשל, מאפשרים למדוד התנהגות וסנטימנטים לפרטי פרטים וכמו שזה קורה.

בעסקים, בכלכלה ובתחומים אחרים, אומר פרופסור בריניולףסון, החלטות יתבססו יותר ויותר על נתונים וניתוח ולא על ניסיון ואינטואיציה. "אנחנו יכולים להתחיל להיות הרבה יותר מדעיים", הוא מציין.

יש הרבה עדויות אנקדוטיות לתמורה מחשיבה-נתונים תחילה. הידוע ביותר הוא עדיין "Moneyball", ספרו של מייקל לואיס משנת 2003, המתאר כיצד האוקלנד דל התקציב עיסת נתונים וסטטיסטיקות בייסבול סתמיות כדי לזהות שחקנים לא מוערכים. ניתוח נתונים כבד הפך לסטנדרט לא רק בבייסבול אלא גם בענפי ספורט אחרים, כולל כדורגל אנגלי, הרבה לפני הגרסה הקולנועית של "Moneyball" בשנה שעברה, בכיכובו של בראד פיט.

קמעונאים, כמו Walmart ו-Kohl's, מנתחים מכירות, תמחור ונתונים כלכליים, דמוגרפיים ומזג אוויר כדי להתאים את מבחר המוצרים בחנויות מסוימות ולקבוע את העיתוי של הורדת מחירים. חברות שילוח, כמו U.P.S., מכרות נתונים על זמני אספקת משאיות ודפוסי תנועה כדי לכוונן את המסלול.

שירותי היכרויות מקוונים, כמו Match.com, מסננים ללא הרף את רשימות האינטרנט שלהם של מאפיינים אישיים, תגובות ותקשורת כדי לשפר את האלגוריתמים להתאמת גברים ונשים בדייטים. מחלקות המשטרה ברחבי המדינה, בראשות ניו יורק, משתמשות במיפוי ממוחשב וניתוח של משתנים כמו דפוסי מעצרים היסטוריים, ימי תשלום, אירועי ספורט, גשמים וחגים כדי לנסות לחזות "נקודות חמות" של פשע סביר ולפרוס שם שוטרים מראש.

מחקר של פרופסור Brynjolfsson ושני עמיתים נוספים, שפורסם בשנה שעברה, מצביע על כך שניהול מונחה נתונים מתפשט ברחבי אמריקה התאגידית ומתחיל להשתלם. הם חקרו 179 חברות גדולות ומצאו שאלו המאמצים "קבלת החלטות מונעות נתונים" השיגו רווחי פרודוקטיביות שהיו גבוהים ב-5% עד 6% ממה שגורמים אחרים יכולים להסביר.

כוח הניבוי של Big Data נחקר – ומראה הבטחה – בתחומים כמו בריאות הציבור, פיתוח כלכלי וחיזוי כלכלי. חוקרים מצאו זינוק בבקשות החיפוש בגוגל למונחים כמו "תסמיני שפעת" ו"טיפולי שפעת" שבועיים לפני שיש עלייה בחולי שפעת המגיעים לחדרי מיון בבתי חולים באזור (ודיווחי חדרי מיון בדרך כלל מפגרים אחרי ביקורים עד שבועיים בערך).

Global Pulse, יוזמה חדשה של האו"ם, רוצה למנף ביג דאטה לפיתוח גלובלי. הקבוצה תערוך מה שנקרא ניתוח סנטימנט של הודעות ברשתות חברתיות והודעות טקסט – באמצעות תוכנת פענוח שפה טבעית – כדי לעזור לחזות אובדן מקומות עבודה, צמצום בהוצאות או התפרצויות מחלות באזור נתון. המטרה היא להשתמש באיתותי אזהרה מוקדמים דיגיטליים כדי להנחות מראש תוכניות סיוע כדי, למשל, למנוע מאזור להחליק חזרה לעוני.

בתחזיות כלכליות, מחקרים הראו שמגמות בעלייה או ירידה בנפחים של שאילתות חיפוש הקשורות לדיור בגוגל הן מנבא מדויק יותר של מכירות בתים ברבעון הבא מאשר התחזיות של כלכלני נדל"ן. הפדרל ריזרב, בין היתר, שם לב לכך. בחודש יולי מקיימת הלשכה הלאומית למחקר כלכלי סדנה בנושא "הזדמנויות בביג דאטה" והשלכותיה על מקצוע הכלכלה.

ביג דאטה כבר משנה את המחקר על אופן פעולת הרשתות החברתיות. בשנות ה-60, סטנלי מילגרם מהרווארד השתמש בחבילות כמדיום המחקר שלו בניסוי מפורסם בקשרים חברתיים. הוא שלח חבילות למתנדבים במערב התיכון, והורה להם להעביר את החבילות לזרים בבוסטון, אך לא ישירות; המשתתפים יכלו לשלוח חבילה רק למישהו שהם מכירים. מספר הפעמים הממוצע שחבילה החליפה ידיים היה מועט להפליא, כשש. זו הייתה הדגמה קלאסית של "תופעת העולם הקטן", שנלכדה בביטוי הפופולרי "שש דרגות של הפרדה".

כיום, מחקר רשתות חברתיות כולל כריית נתונים דיגיטליים ענקיים של התנהגות קולקטיבית באינטרנט. בין הממצאים: אנשים שאתה מכיר אך לא מתקשר איתם לעתים קרובות – "קשרים חלשים", בסוציולוגיה – הם המקורות הטובים ביותר לטיפים לגבי משרות פנויות. הם מטיילים בעולמות חברתיים מעט שונים מחברים קרובים, אז הם רואים הזדמנויות שאתה והחברים הכי טובים שלך לא רואים.

חוקרים יכולים לראות דפוסי השפעה ושיאים בתקשורת בנושא – על ידי מעקב אחר האשטאגים מגמתיים בטוויטר, למשל. קערת הדגים המקוונת היא צוהר להתנהגות בזמן אמת של מספר עצום של אנשים. "אני מחפש נקודות חמות בנתונים, התפרצות של פעילות שאני צריך להבין", אומר ג'ון קליינברג, פרופסור בקורנל. "זה משהו שאתה יכול לעשות רק עם ביג דאטה."

ל-Big Data יש את הסכנות שלו, מה שבטוח. עם מערכי נתונים ענקיים ומדידות עדינות, מציינים סטטיסטיקאים ומדעני מחשב, יש סיכון מוגבר ל"גילויים כוזבים". הבעיה בחיפוש מחט משמעותית בערימות חציר עצומות של נתונים, אומר טרבור האסטי, פרופסור לסטטיסטיקה בסטנפורד, היא ש"פיסות קש רבות נראות כמו מחטים".

ביג דאטה מספקת גם יותר חומר גלם לשטויות סטטיסטיות ולטיולי גילוי עובדות מוטים. הוא מציע טוויסט היי-טק לטריק ישן: אני יודע את העובדות, עכשיו בואו נמצא אותן. כלומר, אומרת רבקה גולדין, מתמטיקאית מאוניברסיטת ג'ורג' מייסון, "אחד השימושים המזיקים ביותר בנתונים".

נתונים מאולף ומובן באמצעות מודלים ממוחשבים ומתמטיים. מודלים אלה, כמו מטפורות בספרות, הם הפשטות הסבר. הם שימושיים להבנה, אבל יש להם גבולות. מודל עשוי לזהות מתאם ולהסיק מסקנות סטטיסטיות שאינן הוגנת או מפלה, בהתבסס על חיפושים מקוונים, המשפיעים על המוצרים, ההלוואות הבנקאיות וביטוח הבריאות המוצעים לאדם, מזהירים תומכי הפרטיות.

למרות ההסתייגות, נראה שאין דרך חזרה. הנתונים נמצאים במושב הנהג. זה שם, זה שימושי וזה בעל ערך, אפילו מגניב.

מנתחי נתונים ותיקים מספרים על חברים שהשתעממו זמן רב מדיונים על עבודתם, אבל עכשיו הם פתאום סקרנים. "Moneyball" עזר, הם אומרים, אבל הדברים עברו הרבה מעבר לזה. "התרבות השתנתה", אומר אנדרו גלמן, סטטיסטיקאי ומדען פוליטי באוניברסיטת קולומביה. "יש את הרעיון שמספרים וסטטיסטיקות מעניינים ומהנים. זה מגניב עכשיו."