למי שזוכר את הטורים שלי מלפני שנה, השתעשעתי ברעיון של להעריך את איכות שחקני ליגת העל לפי מדד ELO.
תקציר – ההקדמה
אלגוריתם ELO (שפותח ע"י המתמטיקאי-שחמטאי-אמריקאי-הונגרי ארפאד אלו) משמש להערכת כושרם של משתתפים במשחקי ראש-בראש. הוא משמש באופן רשמי כשיטת קביעת הדירוג של FIDA, איגוד השחמט העולמי. בנוסף, הוא מיושם באופן לא רשמי על נבחרות כדורגל (באתר www.eloratings.net) וקבוצות כדורגל אירופאיות – אני, בניגוד לערוץ הספורט, לא ממליץ על https://www.euroclubindex.com שממקם את מכבי ת"א במקום ה- 94 באירופה (מעל אנדרלכט???) אלא על www.clubelo.com שממקם את הצהובים במקום ה- 188.
העקרונות המרכזיים של השיטה הם:
- ניצחון על קבוצה חזקה שווה יותר נקודות מניצחון על קבוצה חלשה
- תוצאה מהשבוע האחרון משפיעה יותר מתוצאה מהעבר הרחוק
- אין משמעות לסטטיסטיקות מעבר לתוצאה – תיקולים, שליטה בכדור, ספרינטים ושאר ירקות
מתוך עקרונות אלה נובעות משמעויות המדד:
- המדד מודד כושר, כלומר, מי הקבוצה הכי טובה עכשיו, לא מי הכי טובה לאורך העונה
- המדד מתקן טעויות של עצמו. אם הערכתי קבוצה לא נכון בגלל הנחה שגויה, אלגוריתם לא מכויל או טעות הקלדה – תוך 30 משחקים הטעות תעלם
תקציר – האתגר
כאשר מורידים את המדד לרמת השחקנים, כבר לא מדובר בהתמודדות דו-ראשית אלא 33-ראשית (22 שחקני הרכב, 6 מחליפים, 2 מאמנים, 2 "ארגונים" ויתרון ביתיות אחד). בכלל לא בטוח שהאלגוריתם עושה את מה שהוא אמור לעשות (נדרש לבצע סימולציה של משחקים על שחקנים דמיוניים עם כושר קבוע ונסתר וערך מדד התחלתי 0, עם הסתברות לניצחון בכל משחק בהתאם לכושר הנסתר של השחקנים ואז לראות שערכי המדד בסימולציה מתכנסים לכושר הנסתר שלהם). לכן בשלב זה, האלגוריתם שלי הוא בעיקר שעשוע לא מזיק (חוץ מחוסר ההערכה שפיתחתי לרועי קהת), ולעתים הוא מפנה את הפנס לפנינים נסתרות.
תוצאות שנה שעברה ומבט ביקורתי
בטורים שפרסמתי לפני שנה הוביל את המדד וידאר קיארטנסון. 5 המקומות הראשונים נשלטו ע"י שחקנים מ-2 המובילות.
במבט ביקורתי זיהיתי שהאלגוריתם מעדכן את ציוניהם של השחקנים בצורה מאוד איטית, כך שבחלון ההעברות של עונת 2017/18 הדירוג הכי גבוה של שחקן שהצטרף בחלון של ינואר 2017 היה 22 (אנטואן קונט) ואילו הדירוג הכי גבוה של שחקן שנכנס למדד באוגוסט 2018 היה 31 (אביב אברהם). גם השינוי בנגזרת היה מאוד איטי, כך שאם ראיתי שבוריס קליימן צבר בשבוע מסוים 2.77 נקודות, ידעתי שציונו הנוכחי אינו מייצג והוא ימשיך לעלות במשך שבועות רבים.
לפני שאפרט (ביבשושיות) את התיקונים שעשיתי באלגוריתם, נעשה הפסקה לתוצאות התיקונים.
"תקציר מנהלים"
- השחקן שתורם הכי הרבה לתוצאות של קבוצתו (זה בעצם מה שהמדד מודד) הוא… מנור סלומון (141 נקודות מדד).
- זה לא מתקרב לתרומה של הביתיות לתוצאות של הפועל ב"ש –180 נקודות מדד, וממשיך לעלות.
- הצמרת הצטופפה, אביב אברהם שהדיח את קיארטנסון מראשות המדד במהלך הפלייאוף של שנה שעברה והחזיק במלכות עד לפני 4 מחזורים, צלל עד למקום ה-5 כשעל פניו חולפים ניקיטה רוקאביצה (לא הגיוני? פרטים בהמשך), אנטואן קונט (כנ"ל) ושרן ייני.
- השחקן שהכי מזיק לקבוצותיו הוא לידור כהן (גם זה דורש דיון…) כשצמוד אליו נמצא המושמץ מלמעלה, רועי קהת (שזה דווקא ברור כשמש).
דיון ראשוני
- מבין 7 השחקנים שהוזכרו לעיל, רק שניים וחצי אינם קשרים התקפיים (קונט וייני, רוקאביצה בספק). אז או שהעמדה הזו מכריעה בהצלחת קבוצות, או שהמדד מוטה באזור של שחקנים שלא מסיימים 90 דקות (כפי שקורה תדיר עם שחקנים בעמדה זו). כאוהד מכבי חיפה, התמקדתי ברוקאביצה ושמתי לב שהציון שלו עולה כיוון שהקבוצה נוטה לספוג לאחר שהוא יורד מהמגרש (מכבי פ"ת, רעננה, בית"ר). האם זה בגלל שהוא יותר ממושמע טקטית מזנטי וסלליך? למרות שזה נכון, אני לא חושב שזו הסיבה לספיגות. הסיבה היא שכאשר המשחק תקוע הרבה מאמנים בוחרים "להמר על כל הקופה" דווקא על חשבון קשר התקפי – ואז נכשלים (במיוחד בקבוצה כמו מכבי חיפה).
- זה קצת חשוד שהשחקן הטוב ביותר והגרוע ביותר משחקים באותה קבוצה. הטיה אפשרית כאן היא שלידור כהן עדיין "נענש" על חוסר התאמתו לבית"ר בחצי הראשון של עונת 2016/17 (כל משחק "מטפטף" את תוצאתו למדד במשך שנתיים, ראו בהמשך) ולכן ציונו נמוך מתרומתו האמיתית למכבי פ"ת. עקרון נוסף המובנה באלגוריתם הוא שאם שחקן משחק עם שחקנים בעלי ציון נמוך, הוא עצמו מקבל יותר נקודות על כל הישג. עקב כך, הערכת החסר של לידור כהן גורמת להערכת יתר של התכשיט היקר של משפחת לוזון.
ועכשיו לחלק היבש – עדכונים לאלגוריתם מאז שנה שעברה
העדכון העיקרי שביצעתי הוא שכל משחק מחלק נקודות לשחקנים ב-2 צורות:
- נקודות דחיפה – האלגוריתם "מנחש" מי השחקן שכנראה השפיע הכי הרבה על הצלחת\כישלון הקבוצה במשחק (השחקן עם גודל ה"שגיאה" הכולל במשחקים בהם הוא שיחק בשנתיים האחרונות) ונותן רק לו, פעם אחת, את כל הנקודות שהשיגה הקבוצה עם מקדם 20.
- נקודות טפטוף – האלגוריתם נותן לכל השחקנים שהיו על המגרש ב"רגע המכריע" במשחק את הנקודות להן זכאית הקבוצה, עם מקדם 1. נקודות טפטוף מחולקות על כל המשחקים ששוחקו שנתיים אחורה.
דוגמא: קבוצה שסיכוייה לנצח במשחק הם 80% (לפי ציונים ערב המחזור) אכן מנצחת. האלגוריתם נותן 4 נקודות הדחיפה ((1-0.8)*20) לשחקן אחד בקבוצה ועוד 0.2 נקודות טפטוף ((1-0.8)*1) לכל השחקנים. במחזור שלאחר מכן נקודות הדחיפה על המשחק כבר לא מחולקות, אבל נקודות הטפטוף מחולקות עוד פעם. הפעם כל שחקן יקבל פחות מ-0.2 נקודות כיוון שההפרש בין הקבוצות גדל לאחר חלוקת הנקודות הקודמת ולכן הסתברות הניצחון גדולה מ- 80%.
נקודות הדחיפה מאפשרות למספר מצומצם של שחקנים "לטוס" כלפי מעלה או כלפי מטה על אף שהצטרפו למדד מאוחר. נקודות הטפטוף מוודאות שציוני השחקנים מושפעים פחות ממשחק נגד (או לצד) שחקנים שהמדד עדיין לא מעריך אותם נכון.
העדכון השני בחשיבותו הוא שאני מאפשר ציונים שליליים, וכך אפשר לדבר גם על השחקנים הגרועים בליגה. לסימן מינוס עצמו אין משמעות כיוון שהאלגוריתם הוא הפרשי ולכן אני יכול לתת מקדם 200 נקודות לכל השחקנים (הציון הנמוך כרגע הוא מינוס 169) והאלגוריתם לא ייפגע ולא ישנה את משמעותו.
במצב זה עולה השאלה – מה עושים עם שחקנים חדשים? התשובה היא שאם יש ידע על שחקנים קודמים שערכו הופעת בכורה אצל אותו המאמן או אותה הקבוצה בשנתיים האחרונות – משתמשים בידע זה (ממוצע הציון הנוכחי של שחקנים רלבנטיים, בחתך של זר או ישראלי בהתאם לסיווג השחקן החדש). אם אין ידע כזה (שחקנים חדשים בהפועל חדרה תחת ניסו אביטן) – הציון ההתחלתי הוא מינוס 8, ערך שנבחר כך שציונה הכולל של קבוצה של 11 שחקנים חדשים יהיה הציון הממוצע של אשקלון והפועל כפ"ס בעונה שבה הן היו יורדות ביחד אם הפועל ת"א לא הייתה נענשת בהפחתת נקודות.
3 נושאים נוספים שחשוב להזכיר (למרות שהוכנסו לאלגוריתם עוד כשכתבתי את הטורים הקודמים):
הנושא הראשון הוא הרגע המכריע – השחקנים שנחשבים כאילו שיחקו במשחק הם אלה שהיו על המגרש ב"רגע המכריע"
- במשחק שהוכרע, הרגע המכריע הוא רגע כיבוש השער "שובר השוויון" האחרון. יוצא מן הכלל הוא מצב של כרטיס אדום – אם שחקן מהקבוצה המפסידה הורחק לפני "שובר השוויון", רגע ההרחקה הוא הרגע המכריע.
- במשחק שהסתיים ב- 0:0 מתייחסים להרכבים הפותחים.
- על משחק שהסתיים בשוויון עם שערים מסתכלים כשני חצאי משחקים – באחד הרגע המכריע הוא כיבוש "שובר השוויון" האחרון ובשני הרגע המכריע הוא כיבוש שער השוויון האחרון
כאמור, עיקרון הרגע המכריע חשוב להבנת המיקום הגבוה של רוקאביצה ואביב אברהם, שנוטים לא לסיים 90 דקות.
הנושא השני שחשוב להתעכב עליו הוא שהאלגוריתם בנוי כך שכאשר שחקן לא משתתף במשחק (כולל אם השתתף אך לא ברגע המכריע), הטפטוף גורם לכך שהוא יושפע בצורה הפוכה משחקני קבוצתו שכן השתתפו. לדוגמא, כאשר שחקן לא משתתף בניצחון של קבוצתו, ציוניהם של חבריו לקבוצה יעלו. כאשר יחושבו מחדש נקודות הטפטוף שהוא מקבל על כל מחזור, הוא יהיה חלק מקבוצה "יותר חזקה" ולכן יקבל פחות נקודות על הנצחונות ויפסיד יותר נקודות על הפסדים. הזכרתי קודם את ההשפעה (השגויה, כנראה) של התופעה הזו על מנור סלומון. אותה תופעה משפיעה גם על קונט שבמקום השלישי, אבל הפעם בצדק: ככל שבית"ר מתדרדרת בלעדיו, מסתבר כמה הוא היה חשוב לקבוצה. זה נכון גם למנחם קורצקי (שאיבד רק במחזור האחרון את פסגת טבלת המאמנים לאבוקסיס) שמתקדם למעלה כיוון שגם רעננה וגם הפועל ת"א תפקדו פחות טוב בלעדיו מאשר עמו
הנושא האחרון הוא שהחלטתי להתעלם מהפרשי שערים. מצאתי שזה מעוות את המדד.
מה אני מתכנן הלאה?
קודם כל, לשמור על מקום העבודה שלי, על שלום בית, על המנוי שלי בסמי עופר ועל הקבוצה שלי בהאטריק (כי צ'מפיונשיפ מנג'ר זה לחלשים). אם כל הנ"ל ישאיר לי זמן, יש לי כמה רעיונות על איך לנתח את תוצאות המדד מזוויות שונות. מורן כהן, מאחוריך…