今年6月,由馬斯克、霍夫曼、彼得·蒂爾等一眾矽谷大佬聯合建立的非營利AI研究公司OpenAI曾占領了新聞頭條,因為其最新的人工智慧Dota 2玩家——OpenAI Five——成功擊敗了業餘人類玩家。今天,它再次吸引了人們的眼球:一個能夠以人類靈活度來操控物體的機器人系統。
在一篇即將發表的論文「Dexterous In-Hand Manipulation」(靈巧的手工操作)中,OpenAI的研究人員展示了一種使用增強模型的系統,它在一系列反復的試驗與試錯中讓AI進行學習,最終指導機器人用手臂以精准的尺度抓取並操控物體。更令人意外的是,它完全在電腦類比中進行數位訓練,沒有提供任何人類演示。
「對人類而言,靈巧地操控物體屬於基本日常,但對機器人卻頗具挑戰,」團隊寫道。「目前的機器人通常是在有限的設置中完成特定的任務,很多都不能駕馭複雜的末端執行器。在這項研究中,我們演示了控制策略的培訓方法,這些控制策略可以進行手工操作,並且可以部署在機器人上。」
那麼他們是如何做到的?研究人員用MuJoCo物理引擎來類比物理環境,讓真實的機器人可以在其中進行操作。他們還用Unity渲染圖像,通過培訓電腦視覺模型來讓機器人識別姿勢。但這種方法有局限性,類比只是物理模型的「粗略近似」,過渡到現實世界中可能就有點困難了。
他們的解決方案是將各個環境變數隨機化,比如物理(摩擦、重力、關節限制、物體尺寸等)和視覺外觀(亮度、姿勢、材料及紋理)。這既降低了過度擬合(神經網路在訓練中受噪音干擾而對其性能產生負面影響的現象)的可能性,又增加了生成有效演算法的機會,讓機器人基於真實世界手勢與姿勢選擇動作。
接下來,研究人員開始訓練迴圈神經網路模型。384台電腦,每台配備16核 CPU,每小時可以產生約2年的模擬經驗。在一個8核CPU電腦上進行優化後,他們又進入下一步:訓練卷積神經網路。卷積神經網路可以通過3個類比攝像機圖像來預測機器人手中物體的位置和方向。
模型訓練完成後就可以開始驗證測試了。研究人員使用的是幻影手臂(Shadow Dexterous Hand),它是一個擁有24個自由度的五指機器人手臂。為了操控物體,手臂被安裝在鋁制框架上。研究人員同時用兩組攝像機(動作捕捉攝像機與RGB攝像機)作為系統的眼睛,它可以追蹤物體的旋轉與方向。(雖然幻影手臂有觸摸感測器,但團隊僅選擇使用其關節感應功能對手指位置進行細細微性控制。)
團隊測試了兩次。第一次測試中,演算法的任務是將標有字母的立方體重新定向。團隊隨機選取字母,AI 系統完成之後就更換新字母,如此一直重複,直到立方體從機器人手中脫落,或者操控一個立方體要所需時間超過 1 分鐘,又或者機器人成功操作50次。在第二次測試中,研究人員將立方體替換為八角棱柱。
結果如何呢?這些模型不僅有「前所未有」的表現,而前還順便發現了人類的抓取動作,比如三角抓取(用拇指、食指和中指抓取),棱鏡抓取(拇指與其它手指相互對立),還有指尖捏握。它們還學會了如何旋轉機器人手臂,以及如何利用重力、平移和扭轉力將物體放入理想位置。
「我們的系統不僅能重新發現人類的抓取技能,還能讓抓取動作更好地適應自身的局限和能力,」他們寫道。
但它還不夠完美。它還沒有接受操控多個物體的訓練,抓取球形物體很費勁。在第二次測試中,模擬和真實的機器人操作之間存在測量得到的性能差距。
但最終,該研究展現了當代深度學習演算法的潛力。研究人員總結說:「現實世界中有一些問題是那些非學習型機器人無法解決的,我們的演算法可以解決這些問題」。
本文係由DeepTech深科技授權刊登。原文連結: OpenAI 的前沿 AI 系统,让机器人手臂有人类灵活性