數據輪還是重复樣本? 體能AI 該是拜拜的時候了
機器人仍然在工作 但是他們真正需要的是新的樣本

TL; DR
機器人Animesh Garg質疑該企業使用遠端操作時數作為模擬能力指示器。
數據收集成本很高, 部署數據通常來自狭小的場景。
可能更值錢的是長期尾巴故障、任務覆盖范围和新鮮樣本,而不是全部运行時間。
Animesh Garg是多倫多大學和目前喬治亞大學的前機器學家。
機器人可以以更遠端的操作、更真實的部署和更多小時的操作來組成數據傳單。 對投資者來說, 智慧公司的成本結構、商业化速度和模型障礙常被「數據關閉的環」字包圍。 市場需要重新研究這些公司的數據資產。
"數據時間"可能是機器人的迷信
Garg向Moneyball借了個典型的比喻 2002年,奧克蘭體育團隊與聯盟的一支低薪球隊共贏得103場比賽,目的不是要買更貴的球員,而是要發現市場對球員的計算有誤. 傳統的偵察員估計出擊率、盜竊率和位置。
在他看来,物理AI可能处于相似的阶段. 數據對通用的機器人模型至关重要, 但最明顯的數據也很容易被視為最重要的: 累计的遠距操作時數, 指令軌道數量, 部署的機器人數。
機器人和文字資料的提供不一。 大語言模型可以從網路、密碼庫、書本和網頁取得大量低成本文字, 機器人模型要求有物理相互作用的數據、動作和環境變化的回應。
機器人肯·戈德伯格(Ken Goldberg)用"十万年數據封蓋"來形容機器人和網路大小,AI資料之间的差距. 現代大型視覺語言模擬訓練所消耗的文字與影像資料, 若轉換成人類閱讀或觀看時間, 等於10萬年, 而不是為機器模型設立精确的阈值, 而是提醒工業。
因此加格反對「甜工厂電訊工作」的敘述。 許多手動遠距操作可以製造動作密集的訓練樣本, 如果公司只以總時數來評估數據。
有三种數據可以買到不同的東西
在Garg分類中,物理AI資料大致分为三类:觀察資料,干涉資料和部署資料. 但成本、限制和信息密度相差很大。
第一是觀察資料,例如第一人称或第三人称影片。 它的优点是成本低、基础廣泛, 也很清楚,模型可以看到人或物件的下場。
第二類是介入資料,即遠距操作、教學和人工介入, 此類數據更直接於機器人訓練, 人資及設備成本幾乎不會像軟體資料那樣迅速下降。
第三类是部署資料,即机器人在真正的商业环境中操作時產生的遥測資料。 發表訓練資料。 但這是個统计陷阱。
今天的第一個機器人場景通常也是最小的變數,最固定的流程和最可控制的,例如高度結構的儲存,植物或單一的任務環境. 數量可能很大, 一旦模型學到本地模式。
部署資料不是沒有價值的。 真正有價值的往往不是很多正常的「成功任務」, 而是失敗、干扰、異常物件、邊界條件和稀有的騷擾。 問題是這些長尾的樣本不會以公司理想的速度穩定。
更多數據是有用的 但重複樣本很快就會很貴了
Garg 在使用語言模型縮放法方面更加小心:數據增加通常會減少模型損失, 如果樣本被複製, 幾乎複製, 或是來自同樣的狭义分布。
更能直知. 機器人學會從固定架子上抓取固定的容器,而最早的數以千計的教訓,失敗和改正可能非常有價值. 當動作、物件、光線和路徑被一次又一次收集後。
在語言建模訓練中已經有相似的經驗:數據的重复和密切的重复會浪費訓練預算, Garg並未直接將這些結論放入機器人訓練中, 而是用來說明一個方向: 數據的價值不能只用定量來測量。
對物理AI來說,多元性至少有兩個意義。 第一是展示更多物件,太空,材料,光,屏蔽和操作方法. 二是避免模型在过度簡化的任務分配中表现良好。
因此,長尾故障病例至关重要。 真正的物理世界不均匀分布,低頻率反常會決定商业用途:物体是單面的,容器是變形的,表面反射的,抓取滑行的,人物突然介入,感應器缺失,地面摩擦變化. 如果這些尾端事件得不到處理。
部署轮机
這篇文章真正的挑戰是智慧公司共同的商业化路線:部署機器人到狭小的場景。
Garg稱此類路徑為「新整合者」方法。 試圖讓機器人投入商業製作, 這條路線聽起來比建造遠端操作廠更有效率。
然而,有一個前提,即早期商業假想中的數據必須是足夠新的和多样的,以帮助模型移動到更多的任務上. 數據會很快被饱和, 公司不可能收到通用能力傳單。
這需要兩種成本。 首先, 第二,如果部署本身尚未取得利得和損失的平衡,扩大可能不一定是低成本的數據收集或大量低强度樣本的損失交换。
因此,早期部署并非無用,而是需要更仔细的觀察:它帶來了新的任務覆盖面,以及許多失敗和異常的樣本,是否可以移到其他情景,在扣除硬件、人力、维修和集成成本之后,每美元有多少模型改进。
價值描述不能只問我們存了多少小時
Garg建議不要停止收集資料, 相當於模式進步。
更多解釋性問題包括:一個任務的數據將在何時被饱和。
資本分配依三种資料而不同。 觀察資料應优先追求低成本、多元和廣泛的覆盖范围, 當高成本的遠端操作和教學資料在單一任務上被饱和時, 預算應該重新定向到更多的任務, 部署資料應該集中在選取失敗、邊界條件與分散樣本。
這套觀點對物理AI的評估敘述有真正的影響. 擁有更多機器人、更長的運作時間、更遠端操作員的公司, 透過持續尋找高價值、長期資料。
但這仍是一套分配觀點, 機器模型是否產生類似語言模型的尺度效益,部署資料能否在某些高維度情景下持续生成新信息,以及特派团之间的迁移效率如何,都将取决于更多的實驗結果。
Garg的提醒涉及一個更特別的問題:物理AI的「金球指示器」可能不是數據時數, 市場總結不依據它們累计跑動多久。
