即時回饋絕對是關鍵。Saqib Shaikh說,想像一個情境,當你在一個會議上進行簡報。因為這是一個正式場合,因此所有人,包含旁邊的同事、上級主管,都只是安靜聽你說話,不會任意發出聲音。所以在你說話的同時,若無法用眼睛去觀察聽眾,你對於他們的反應是毫無頭緒的,你甚至不知道應不應該繼續說下去,還是暫停下來詢問聽眾的想法。
這時候,如果有一個AI可以幫你辨識聽眾的反應,即時回饋你他們是不是看起來滿意、尤其是還能辨認出特定人士,比方說直屬主管的表情和動作如何,這樣一個人工智慧,將能夠大大地讓盲人突破限制,改善他們在日常工作中表現。
非監督學習是視覺AI下一步突破關鍵
今日我們所談的視覺AI ,其實多半仍局限於靜態圖像、單一圖像,但Saqib Shaikh想像中的Seeing AI 2.0,將可以解讀一系列的圖像、可以掌握使用者的偏好。
「就像當我與妻子一起在街上走路時,她會告訴我有什麼我沒看過的新東西、有什麼有趣的事物。比方說,她會告訴我我們很喜歡的一間咖啡店關門了。」Saqib Shaikh說,「一個真正的人可以瞭解什麼是你會感興趣、什麼是你會覺得重要的事物。」
而AI若要能夠做到這一點,就不能只是一次辨識單一圖像,而是還要能綜合理解背後的情境,甚至是接續出現的新的資訊。Saqib Shaikh分析,這意味著後續 Seeing AI 必須運用更多非監督學習的技術來訓練AI,進一步拓展AI對多變場景複雜資訊的處理能力。
其實,Saqib Shaikh早在求學期間意識到,為了讓身為盲人的自己表現更好,他必須做很多額外的努力來改變他所處的生活環境,包括不只是自己看書、而是要雇請其他人為他朗讀教科書的內容等,才能讓自己與其他正常人站在更接近一點的比較基準上。
當時就有個朋友建議過他,與其只用嘴巴說要改變生活環境,不如實際做點什麼真正的改變。這讓他早就思考過,從某種角度來講,殘疾者本人其實就是最好的創新者。因為,他們比任何人都瞭解殘疾者最迫切的需求是什麼?願意做什麼嘗試?可以如何改變?
然而,在Saqib Shaikh進入微軟工作的近乎前10年,他並未在工作上試圖突出任何作為一個盲人的特殊能力。相反的,他讓自己就像一名正常的工程師一樣,絕大多數時間都投入內部的主流專案,如Cortana等。
「我想,起初我是想證明自己可以成為一個主流的工程師」,Saqib Shaikh說,而轉捩點是出現在他於微軟工作的第10年。「工作滿10年後,我覺得我已經達到了目標,證明了自己的能力,所以我可以開始運用自己的專業去幫助其他人。」
現在,他終於決定投入自己真正想做的事情,也就是用AI來改善殘疾人士的生活環境。就像他所說的,「我可以選擇用這一種與我自己最相關的方式,從個人經驗來理解許多盲人的問題,並且用自己的專業來提供協助。」