跟科幻片一樣!OpenAI只用13天給機器人加上了GPT,從此無比“接近人類”
火遍硅谷、OpenAI重金押注的人形機器人Figure 01,現在會看會聽,能和人類自由對話了。當地時間3月13日早晨,初創公司Figure AI在X放出這段最新demo。效果十分炸裂,總共展示了以下幾組行為:1.首先詢問機器人能看見什么,Figure 01清晰描述了一切,包括視角正中的紅蘋果、放有杯碟的瀝水架、以及站在面前的工作人員和他搭在桌上的右手。2.接著工作人員問,“可以給我點吃的嗎?”Figure 01把蘋果拿起遞過去,并按照要求,一邊清理工作人員剛傾倒在桌面的紙團,一邊解釋剛剛的行為:“我給了你蘋果,因為我覺得這是桌上唯一能吃的東西。”然后自然而然地把收好在籃子里的紙團給回工作人員。3.“根據現在所見,你面前的碟子應該到哪兒去?”Figure 01思考片刻做出判斷:杯碟應該歸置進晾曬架,而后按指令放好。4.最后一步,讓它自己評價任務完成的怎么樣。Figure 01自信地回答道:“我覺得我做得很不錯!蘋果找到了新主人,垃圾清理了,桌面上的東西各歸各位。”這里的Figure 01是3月9日更新版本,由OpenAI技術加持。從兩周前雙方宣布合作,決定共同開發下一代人形機器人AI模型,推進機器人學習邊界,到現在面前這個科技感滿滿的“人形GPT”僅僅用了13天。而且據Figure AI創始人Bratt Adcock稱,所有這些行為都沒有經過遠程操作,而是通過機器人的自我學習而來。并且以正常的1.0倍速連續拍攝,沒有加速、沒有剪輯,所見即所得。可以感受到視頻中Figure 01的速度已經快要接近人類。具體來看,此次Figure 01體現出的炸裂能力有:1. 識別周圍環境,準確描述視覺體驗。視頻開頭它說看到桌上的蘋果和面前站著的人類。2. 推理和決策下一步行動。例如“桌子上的盤子和杯子很可能需要放在瀝水架上”。3. 將模棱兩可的請求翻譯成一些與上下文相關的行為。比如將對方說的“我餓了,有沒有吃的”轉換成“遞給這個人一個蘋果”的行動。4. 用語言解釋推理過程,比如“蘋果是這里唯一能吃的”。5. 反思自己的記憶做出判斷,即在視頻最后回顧了全套行為,并且基于常識進行評價。那這一切又是怎么完美實現的呢?領導該項目的高級AI工程師Corey Lynch發文解釋了背后原理。他表示,Figure 01正是通過與OpenAI提供的大模型連接起來,才被賦予了這些天秀的“有趣新功能”。他們將機器人攝像頭拍攝到的圖像和機載麥克風捕捉的語音,轉錄為文本輸入到由OpenAI預訓練的大型多模態模型中。該模型能夠理解圖像和文本,在處理整個對話歷史、包括過去的圖像后做出語言回應,這些回應再通過文本轉語音最終傳遞給人類。所有行為都由神經網絡視覺運動轉換器策略驅動。以10Hz頻率輸入機載圖像,交給大模型處理,大模型推理預測下一步行為,將像素映射到200Hz、24個自由度的動作(包括手腕姿勢和手指關節角度),直接輸出結果。整個過程依靠端到端的機器人控制,而無需經過中間過程的編碼。更新后的Figure 01優越之處還在于,接入的OpenAI大模型能理解歷史對話,為機器人提供了強大的短期記憶。從而理解上下文語義,做出準確的判斷和執行。比如demo里甄別過杯子盤子應該放回瀝水架后,工作人員下達指令:“Can you put them there?” 這其中代指的“它們”和“那兒”是很模糊的。但是經過預訓練的模型通過分析對話歷史記錄,就能促使Figure 01迅速形成答案并輸出動作:1)將杯子放在瀝水架上2)將盤子放在瀝水架上。除此以外,機器人基于視覺運動策略學習到的行為執行更快速、反應更靈敏,相比之下有些行為提前手動指定是很難的,比如在任何位置操縱一個可變形的袋子。同時,一個整體的全身控制器能確保Figure 01保持平衡,時刻處于安全穩定的動態中。除人工智能加持外,Figure 01還垂直整合了由專業工程師設計的所有系統,包括電機、固件、熱力學組件、電子設備、中間件操作系統、電池系統、動作傳感器、機械和結構。對于此次更新,網友們反應極度熱烈。有人說,能做出一個能幫你刷碗打掃屋子的智能機器人已經贏了。還有人已經想象到了商業化適用場景,“Figure機器人似乎可以成為盲人群體的向導”。更有網友不留情面地cue波士頓動力“該回實驗室給機器人研究點新舞步了”。Figure機器人的智能化之強,也讓人感嘆和它對視8秒會不會被暴揍。“13天內如此驚人的成績,等不及要看接下來會發生什么了!”而攜手Figure AI提供燃料,將其推上神壇的OpenAI,也被網友稱為“難以抗衡的合作關系”,建議波士頓動力火速更換合作伙伴。Figure AI最新估值是13天前的26億美元,而今兩周過去,估值應該是多少?網友:“不可估量”。Figure AI曾在上月27號宣布,獲得來自微軟、英偉達、OpenAI以及亞馬遜創始人貝佐斯等投資人約6.75億美元的新一輪融資,成為馬斯克“擎天柱”機器人之外最受投資人們追捧的AI人形機器人。據Figure AI稱,他們的目標是造出真正的通用機器人,替代人類執行危險或機械化的工作,并最終實現“行走的AI智能體”,自主執行日常任務。從如今OpenAI入局后這短短兩周結果來看,這一目標仿佛變得更近。而OpenAI在人工智能產業中全面撒網加大部署這一步,似乎又走對了。很多人說閉上眼已經可以把Figure 01在自己身邊的體驗具象化。機器人不再是實驗室里可看不可得的觀賞品那天,也許比我們想象的更快到來。現在是2024年的3月,幾個月后會前進到哪一步?倒計時開始。??硅星人|AI hacker house系列活動??「AI人格體搭建賽 」首站來襲!掃描下方二維碼報名參賽,豐厚現金大獎等你來拿!