כדורגל במספרים: על ריבועים, נתונים ו-Expected Goals

“אני לא מבין מה אתה רוצה מהריבועים האלה, כל פעם אתה שולח לי את זה ואני לא מבין”. משפט טיפוסי שלי עד לפני שנה במהלך שיחה עם חבר ותיק לאחר מחזור פרמיירליג. היום, הריבועים האלה הם בערך הדבר הראשון שאני רץ לבדוק אחרי משחק, ואת המשפט מתחילת הפסקה אני בעיקר שומע מחבריי שפחות מתעניינים בפרמיירליג.

לריבועים האלה יש שם: Expected Goals או (XG), וזהו אחד הכלים החזקים ביותר היום בתחום ה Football analytics, כלי שנכנס גם לרשת ה- BBC הבריטית בסיכום המשחקים ובתוכנית Match of the day (המקבילה של שער השבת).



אז לפני שאני מתחיל, לפניכם כמה הנחות בסיס חשובות וקרדיטים:

  1. אני הולך להתמקד במודל של מייקל קלי (Michael Caley, @MC_of_A), אחד המודלים היותר מוצלחים.
  2. מרבית המודלים דומים.
  3. הנתונים למודלים מגיעים מחברת OPTA, אולי החברה המובילה היום בתחום איסוף הנתונים והאנליטיקס.
  4. המודל הוא מתמטי, אבל אני לא מתכוון להתמקד בכלל בפן הזה, כך שכל אחד יכול לקרוא.
  5. אני מתרכז בניתוח עפ”י הפרמיירליג (שם נאספים הכי הרבה נתונים), אבל למודלים יש התאמה גם ל-5 הליגות הבכירות באירופה וניתן להתאים אותם גם לליגות נמוכות יותר.
שערים צפויים אלקסיס
Via The Telegraph Facebook page

כמה פעמים הייתם בטוחים שהקבוצה שלכם שיחקה טוב מאוד, אפילו שלטה ובסוף יצאה מנוצחת, או בתוצאת תיקו מאכזבת? כמה פעמים שמעתם את עצמכם אומרים את המשפטים הבאים: “שכבנו להם על השער, בעטנו 16 פעמים לשער ו-10 למסגרת”, “היה להם סה”כ מצב אחד והם עשו ממנו שער”, “למה מוסא דמבלה לא בועט יותר יש לו אחלה בעיטות” (מצטער אני אוהד טוטנהאם ואלה הדוגמאות שלי), “הגענו לעשרות מצבים טובים, איך לא ניצחנו?!?”.

בדיוק מהסיבות האלה לפני כ-5 שנים החליטו בקהילת האנליסטים של הספורט שצריך לנתח ולהגדיר מהו מצב טוב, לכמה מצבים באמת טובים הגיעה קבוצה, ולנסות לכמת את הדבר הזה לכדי מוצר שיתאר לנו בצורה יותר מדויקת את ההתנהלות על המגרש. מייקל קלי אומר שמבחינתו המודלים שהתפתחו הם פשוט הגיוניים. אז אולי אני קצת הולך לעשות כאן רציונליזציה לספורט שכולנו אוהבים, אבל אין מה לדאוג, זה רק מוסיף לכיף ולעניין.

xG (מעכשיו אשתמש בקיצור זה למושג אקספקטד גולז), הוא בעצם מודל מתמטי שמנסה לתאר את איכות הבעיטה. כדי לענות על השאלות והציטוטים של האוהד הספק מתוסכל, ספק לא רוצה בכלל להיכנס לעובי הקורה, או שאין לו את האמצעים. מטרתו לתאר את איכות הבעיטה, לאחר מכן סכימה של הבעיטות הללו לכדי תוצאה משוערת עפ”י אותן איכויות בעיטה. וכדי לעשות את זה דרוש לאסוף המון נתונים כגון: מרחק הבעיטה מהשער, זווית הבעיטה, זהות הבועט, האם הבעיטה נבעטה ממצב של משחק עומד או ממשחק חי, האם ממצב נייח או דרך כדור עומק, מה הייתה איכות המסירה לפני הבעיטה, האם העמידה את השחקן במצב יתרון, האם הבעיטה הגיעה אחרי דריבל; ועוד ועוד.



סטטיסטיקאים ומתמטיקאים (ועוד הרבה *קאים אחרים) אספו נתונים על כ-50 אלף בעיטות מ-5 הליגות הראשונות באירופה כדי להבין טוב יותר את ה”התנהגות” של הבעיטות. התוצאות הראו שיש משקלים שונים לפרמטרים המוזכרים לעיל ויש הבדלים עצומים בסיכויי הכיבוש בין שחקנים שבועטים פערים רבות לשער מאשר לאלה שבועטים מעט. למשל, לשחקנים כדוגמת הארי קיין או אלכסיס סאנצ’ז, שנצפו עם מעל 250 בעיטות, יש סיכוי כמעט כפול לכיבוש שער משחקנים שבעטו בין 75-150 בעיטות. וזו הסיבה שבעיטה של מוסא דמבלה מחוץ לרחבה במצב קורץ ככל שיהיה לא תספק יותר מ 0.1 שערים לפי המודל (וזו אכן המציאות).

Via Michael Caley on Twitter

גרף זה מציג את יחס ההמרה של הבעיטה לשער. ניתן לשים לב שיש השפעה לזווית לא פחות מאשר למרחק, והשינוי חד מאוד.

עוד דוגמאות: כדור עומק בד”כ עוזר להתגבר על שחקני ההגנה ולכן יעמיד אותו במצב טוב יותר לכיבוש, גם אם הבעיטה נבעטה ממרחק באופן יחסי. בעיטה שהגיעה לאחר מסירה בתוך הרחבה היא בעלת סיכוי מאוד גבוה יחסית להסתיים ברשת. או התקפה מתפרצת, כלומר בעיטה שהגיעה תוך כדי מהירות מסוימת שמוגדרת כמהירות להתקפה מתפרצת. וכמובן עוד קצרה היריעה מלתאר את המצבים השונים (קרוסים, טעויות מגן וכו’).

כל אלו הן מן הסתם אינטואיטיביים מאוד עבורנו, אבל מישהו היה צריך לשבת ולחשב ולנסות לראות כיצד מייצרים משהו מאוזן. (זהירות מתמטיקה) הקירוב של קלי היה קירוב אקספוננציאלי, והוא הביא לתוצאות מאוד קרובות למציאות על פני שתי עונות. בנוסף הוא הכניס שדרוגים למודל, שלוקחים בחשבון התקדמות של עונה (כימיה קבוצתית), ולאחר שיפורים עם הזמן ואיסוף נתונים מדויק יותר ככל שהתקדם השימוש במודל, הוא שיכלל אותו לכדי רמת אמינות גבוהה ביותר וכמעט אינו מפספס.

איך זה נראה (תזכרו בריבועים):

Via Opta on Twitter

זהו ציור מוקטן של המגרש ומיקומי הבעיטות. מיקום הריבוע הוא מיקום הבעיטה. טוטנהאם בלבן, ליברפול באדום. ככל שהריבוע גדול יותר, המצב היה טוב יותר ואיכותי יותר. ריבוע ורוד מעיד על שער שנכבש.

ניתן לראות שלמרות שהשער השני של סאלח הגיע מטווח קרוב, כלומר מאזור שנחשב בעל סיכוי גבוה מאוד לכיבוש, השקלול של המודל נותן לשער הראשון סיכוי טוב יותר: הזוית, הטעות של אריק דייר, המהירות, וכמובן זהות הכובש (שבמקרה זה זהה). לעומתו, ויקטור וואניאמה מקבל ריבוע פצפון, כיוון שאיננו ניחן בקישורי בעיטה מדופלמים (לפחות לא סטטיסטית). אך טוטנהאם הגיעה לעוד מספר מצבים קורצים מתוך הרחבה (בניגוד למצבים של ליברפול). אפשר לראות שעפ”י איכות המצבים והמשחק התוצאה אמורה להיות שקולה ויותר קרובה ל-1:1. חשוב לציין שפנדלים ושערים עצמיים לא משוקללים בתוך המודל.

Via Opta on Twitter

הנה דוגמא שאני מאוד אוהב. ברנלי אשפית ניצול המצבים. היא לעיתים קרובות מביכה את המודל, אבל מוכיחה שלהגיע להזדמנות אחת טובה יכול להיות שווה זהב, אם רק תדע להגן ויהיה לך קצת מזל. לעומת זאת, כמות הבעיטות של סיטי מעידה על כך שלמעט המצב הקורץ שראחים סטרלינג החמיץ מ -3 מטרים (זו הסיבה שאין מצב שזוכה ל- 100 אחוז), היא לא באמת הייתה עליונה על ברנלי הקטנה. יתרה מכך, אפשר לראות שההגנה של סיטי איפשרה מצבים טובים בתוך הרחבה בעוד זו של ברנלי, עשתה את המיטב כדי לכפות על סיטי מצבים לא נוחים לבעיטה.

איך כל זה עוזר לנו? זה עוזר לנו להבין יותר טוב את מהלך המשחק ולנתח נכון יותר את ההתרחשויות. זה יכול לשמש את הקבוצות כדי לדעת כיצד להתגונן נכון יותר. למשל לקבוצה שמייצרת את המצבים המסוכנים שלה מכדורי עומק אולי שווה לשחק עם קו הגנה נמוך יותר. זה יכול לעזור לקבוצות לדעת היכן הן עומדות במבחן המציאות לעומת היעדים שהגדירו. ניקח את פסקל גרוס, קשרה המחונן של ברייטון. בשנה שעברה עמד בראש טבלת מייצרי המצבים של הבונדסליגה, עם 96 מצבים בקבוצתו של אלמוג כהן, אינגולשדאט, אך סיים עם 4 בישולים בלבד. תמונת xG יכולה לספק לנו מידע האם הוא סידר מצבים טובים והבעיה הייתה במוציא לפועל, או שהמצבים לא היו כל כך טובים בידעבד.

טעות תהיה לחשוב שxG מטרתו חיזוי תוצאה לשם הימורים או לחילופין לצורך “הרגזת” אוהדי קבוצה מסוימת/הקטנת הישג. כך למשל כשקלי פרסם את נתוני המשחק של טוטנהאם נגד ריאל מדריד, הוא הראה שלמעשה ריאל הגיעה למצבים טובים יותר, והואשם (אוהד טוטנהאם) בכך שהוא מקטין מההישג של הקבוצה. בנוסף, אין המטרה של הנתונים הללו לחתום דיון ולהגיד זוהי ההוכחה לעליונות של קבוצה א על קבוצה ב, אלא להפך, זה אמור להיות כלי עזר לעורר דיון מעמיק יותר, רחב יותר ומעניין יותר.

המודל כמובן עדיין לא מושלם. ישנם פרמטרים שעדיין לא הוכנסו לשימוש כגון מיקום ההגנה, מפני שעדיין לא נמצאו קטגוריות המדידה. אבל ללא ספק להגנה יש השפעה על איכות בעיטה, וכמובן שזה מוכנס בצורה של כמה פרמטרים אבל זה אחד האתגרים הגדולים שעומדים בפני המודלים. כמו כן, איכות השוער. סביר שבעיטה הנבעטת לדוד דה חאה תיעצר בסבירות גבוהה יותר מאשר בעיטה לכיוון פטר צ’ך. אני מניח שבקרוב מאוד זה גם ישוקלל בתוך המודלים השונים. מבחינת כושר בבית או בחוץ המודלים השונים עושים עבודה טובה, על אף שהם לא מתייחסים לכך והטעויות הן קטנות; של מאיות האחוז. תוצאות גבוהות (שהן פחות שכיחות סטטיסטית) עדיין לא נחזות כמו שצריך. למשל במשחק ה- 5:1 של ארסנל נגד אברטון בשבת האחרונה’ ה- xG  של ארסנל עמד על 3.4. כמו כן, לרוב קבוצה תכבוש שני שערים כאשר יש לה בין 1.4-1.8 xG.



אז בפעם הבאה שאתם רואים את הריבועים, או כשמישהו מציע לכם איזושהי טענה של שליטה מוחלט, אתם יודעים עכשיו שאין מה להילחץ. הכל מוקלט, רשום ומנותח. ואם נדמה לכם שליברפול הפעילה מכבש על שער של היריבה שלה אבל בכל זאת סיימה איתה ב- 1:1, ייתכן מאוד שהמודלים יצביעו על כך שלא הגיע לקבוצה יותר מזה.

* תודה מיוחדת למארק חורושנסקי שעזר לי באיסוף החומר והוא החבר המדובר מהשורה הראשונה

 
   

תגובה אחת

   
לוגו עם רקע שקוף

ניוזלטר הזווית!

רוצים לקבל את הטורים הבולטים ישירות למייל באופן מרוכז? הירשמו כאן!