世界盃預測之所以困難的最大原因:情況差異大,推論易有偏差。不同於足球職業隊每年的賽程時間、對戰球隊、上場的球員都有很高的一致性,世界盃是每4年才舉辦一次,8年、4年前的世界盃跟現在的情況幾乎不一樣,包括參加的國家隊、每個球隊的11位球員、主客場等,而且這些球員很少一起比賽,不熟悉彼此的套路,就算是參加多屆的球員,隨著年紀變化,現在的體力也跟過去比賽時的情況不同,儘管在分析時使用了很多的歷屆的資料,「但用歷史資料推未來,容易有bias(偏差)」受訪者表示。
他進一步解釋,運動賽事的預測模型並沒有所謂的標準,要抓取哪些資料完全是見仁見智,例如有人認為歷史賽事、主場優勢是關鍵,有人則相信球迷在社交網路上的討論度才是新一代且準確的分析資料,儘管使用相同的資料,但也會因為演算法設計差異,跑出不同的預測答案。「如果只是自己想試試、預測好玩的可以,但我們的預測報告是要賣錢的,明知道預測準確度不高就不會給客戶,因為沒有人會想砸自己的招牌。」他很直白地說。
其實,這種看法並非無中生有或是譁眾取寵,其他公司先前也指出類似問題,谷歌在上屆預測德法之戰失準時,曾在官方博客上表示:「世界盃球隊特別難以建模,因為上場的球員很少一起打球…如果資料是一個好模型的命脈,我們則苦於缺乏更多資訊。」另外,參與上屆世界盃預測,勝率超越谷歌的微軟也曾表示,世界盃的預測很複雜。不同於谷歌是從賽事資料衍生出歸納模型,Bing Predicts平台能預測更準確的原因之一是仰賴博彩網站上的投注結果。
微軟模型的資料來源很多元,包括資格賽、其他國際比賽中贏/輸/平局的紀錄。並且調整了幾個會使一個球隊比另一個球隊更具優勢的因素,像是包括比賽地點(因為主場優勢是已知的偏見)、比賽場地(如混合草地)、時間、天候等。但更重要的是,微軟還使用了投注市場的資料,「這使我們能夠調整輸贏的概率,這是基於人們下注的結果,也就是『群體智慧』(wisdom of the crowds)現象」。微軟解釋,每一項預測往往會使用不同的資料池,這些資料組合通常是民調、歷史結果、互聯網投注資料,常規收集的統計資料、以及使用者生成的資料。例如,美國職棒MLB常規賽季可以獲得大量的資料,但是世界盃足球賽沒有這種積累,因此通過人群參與來創造新資料是合理的作法。
群體智慧一詞因知名專欄作家James Surowiecki寫的書 ——《群體智慧》(The Wisdom Of Crowds)而被大眾廣為討論,他在書中探討一個貌似很簡單、但實質上卻很複雜的想法:一大群人比一小群精英分子還聰明,前者更擅長解決問題、做出智慧決策、甚至能更準確地預測未來。這種依靠群眾智慧來預判事件發展結果的概念,被應用在不少的「預測」上,特別是人們的網路活動和社交資料,包括選舉預測、知名的歌唱大賽、選秀節目、股票走勢、運動賽事等。