曾任Google數據科學家的Seth Stephens-Davidowitz在新書《數據、謊言與真相》(Everyone Lies)中提到,他曾將美國2004年至2011年的「失業率」輸入Google Correlate,其相關字眼中「就業服務站」或「新工作」這些字眼搜尋頻率都很高,但卻不是最高。
搜尋頻率最高的字眼是「Slutload」這個A片網站,另一個高度相關的字眼則是「連環新接龍」(Spider Solitaire,該中文版書譯為「蜘蛛紙牌」)。雖然答案很出乎意料,但作者也解釋,失業者有很多空閒時間,獨自窩在家很無聊,從這個角度來想似乎就不意外了。
作者強調,失業者的消遣會隨時間異動,例如某一段時間最高度相關的是「Rawtube」(是的,這是另一個A片網站),所以重點並不是哪一個詞可以用來反映失業率,而是透過這些數據,得到一個嶄新的角度:用休閒消遣相關的字眼來反映失業率。
藉由這個例子,作者向讀者展現大數據的力量不在於數據的大小,而在於重新想像什麼樣的資訊可以做為數據。