儘管「名留青史」的章魚哥已離開世間,人們還是可以從「資料」做成的水晶球來預測賽事,強調用科學來說話,特別是在上屆的世界盃,谷歌、微軟、百度曾都公佈自家的預測,哪一個巨頭的模型比較神準?也成了世界盃的場外賽,再加上近2年人工智慧席捲全球,目前在GitHub上就可以找到不少關於2018世界盃的公開訊息預測工具,也有人在Medium上分享自己以機器學習建立預測模型的教學。
對於運動賽事的預測一般會怎麼做?深科技採訪了幾位受訪者,包括任職於運動賽事分析網站的大資料專家(該網站是利用資料預測賽事,並將預測報告販售給會員)、曾親身寫過運動比賽預測模型的AI區塊鏈初創公司首席技術官(CTO)等人,歸納出作法。
一般來說,會使用以下主要資料:歷屆世界盃的賽事紀錄,包括贏/輸/平局、進球區域/時間/射手+助攻,比賽當天的主客場、天氣狀況、世界盃上場球員近期在職業隊的對戰表現、以及球迷的熱情度等。在資料獲取部分,全球也有幾家大型的運動賽事資料公司,像是歐洲最權威的體育資料供應商OPTA、或是互聯網博彩平台Sportradar等,它們長期搜集各種運動項目和球員的賽事結果,想要分析或預測的人可以向這些資料商購買完整的資料。
但是,如果不想花大錢,通常就是自己寫爬蟲程式,在互聯網上抓取各種資料。之後再利用購買的或是自己抓取的資料,清理好之後再寫進資料庫(Database),建立預測模型。不過,自己抓取資料容易有一項問題,「資料庫沒有的,整理成本比較高,錯漏多,有時寧可不用」受訪者說。之後,演算法會根據餵進來的資料,自動調整其權重比例,建立出一個預測模型。
谷歌在上一屆也就是2014年的世界盃,建立統計模型並使用機器學習來預測賽事結果。Google建構的模型則包含了以下幾個資料來源:一是OPTA的資料,涵蓋了職業足球聯賽的多個賽季、世界盃的小組賽,二是自家工程師建構的實力排名,三是前往巴西球賽現場加油的粉絲數量,由於運動賽事中主場優勢(home team advantage)是相當重要的因數,因此谷歌透過此資料來取代模型中簡單的主場優勢。當年谷歌在16強的8場比賽全部命中,但在預測誰能踢進前4強時,則錯了一場德法之戰。