星動(dòng)紀元端到端原生機器人大模型ERA-42正式亮相,引領(lǐng)具身大模型進(jìn)入靈巧操作時(shí)代
2024-12-23 18:01 互聯(lián)網(wǎng)
導語(yǔ):近期,星動(dòng)紀元端到端原生機器人大模型ERA-42正式亮相,即“紀元原生機器人大模型”,寓意著(zhù)不斷探索宇宙萬(wàn)物的終極答案,展示了其與自研五指靈巧手星動(dòng)X(jué)HAND1結合后的靈巧操作能力,已學(xué)會(huì )了使用不同工具完成100多種復雜靈巧的操作任務(wù),并且持續在同一個(gè)模型下學(xué)習新的技能。例如,拿起桌上螺釘鉆鉆緊螺釘、用錘子敲打釘子、將水杯扶正后再往水杯中倒水等任務(wù)。
基于ERA-42,星動(dòng)X(jué)HAND1能用不同工具完成多種靈巧操作新任務(wù)
這是業(yè)界首次僅通過(guò)同一個(gè)具身大模型就實(shí)現了五指靈巧手像人手一樣使用多種工具完成上百種靈巧復雜操作任務(wù),展現了ERA-42行業(yè)領(lǐng)先的通用、靈巧操作能力。模型不需要任何預編程技能,完全基于其強大的泛化和自適應力,能在不到2小時(shí)內通過(guò)收集少量數據就學(xué)會(huì )執行新的任務(wù)。同時(shí),ERA-42還在快速不斷學(xué)習更多新技能中。
基于ERA-42,星動(dòng)X(jué)HAND1可完成100多種精細化、智能化的五指靈巧手操作任務(wù)
ERA-42也是世界范圍內首個(gè)真正的五指靈巧手具身大模型,開(kāi)啟了具身大模型的通用靈巧操作時(shí)代。
1. “真正”的具身大模型才是開(kāi)啟通用具身智能體的密鑰,需要具備以下三個(gè)要素:
一是統一一個(gè)模型泛化多種任務(wù)和環(huán)境:通過(guò)構建一個(gè)統一的原生模型,融合視覺(jué)、語(yǔ)言、觸覺(jué)和身體姿態(tài)等全模態(tài)信息,實(shí)現對不同任務(wù)和環(huán)境的泛化能力。
二是端到端:從接收全模態(tài)數據,到生成最終輸出(如決策、動(dòng)作等),通過(guò)一個(gè)簡(jiǎn)潔的神經(jīng)網(wǎng)絡(luò )鏈路完成。該過(guò)程無(wú)需人為設計特征、預編程或干預處理步驟,使得具身智能體能夠實(shí)時(shí)適應不同任務(wù)和環(huán)境,顯著(zhù)提升靈活性與開(kāi)發(fā)效率。
三是Scaling up(規;赫嬲慕y一的端到端算法才允許模型通過(guò)持續的數據積累實(shí)現自我完善,使得具身大模型在數據量指數級增長(cháng)的同時(shí),不僅提升性能,還能在未知任務(wù)中展現卓越的自適應和泛化能力。
例如,被行業(yè)廣泛熟知的Physical Intelligence (簡(jiǎn)稱(chēng)PI)發(fā)布的π0模型就具備上述要素,是典型的真正意義上的端到端具身大模型。
2. 星動(dòng)紀元ERA-42是國內首個(gè)真正意義上的端到端原生機器人大模型,比肩世界領(lǐng)先水平
早期,星動(dòng)紀元和PI幾乎同期采用了端到端算法來(lái)提升其原生機器人大模型性能,PI推出的π0模型,通過(guò)結合互聯(lián)網(wǎng)規模的視覺(jué)-語(yǔ)言預訓練與機器人操作數據集后訓練,使得機器人能夠在人類(lèi)環(huán)境中自主執行多種復雜任務(wù),這是機器人從特定任務(wù)的“專(zhuān)家”向多任務(wù)的“通才”發(fā)展歷程上的重要一步,也是具身大模型領(lǐng)域的一個(gè)里程碑。
星動(dòng)紀元早期發(fā)布的研究成果和Physical Intelligence (PI)幾乎不謀而合
星動(dòng)論文HiRT: Enhancing Robotic Control with Hierarchical Robot Transformers發(fā)表在CoRL2024
而后,星動(dòng)紀元又探索了另一條訓練道路,采用大規模視頻數據學(xué)習策略,涵蓋無(wú)標注的視頻數據、公開(kāi)各類(lèi)形態(tài)機器人的數據、人類(lèi)活動(dòng)數據以及遙操作數據等。并且,在上述數據的使用上,星動(dòng)紀元不是直接模仿視頻里的人怎么去做,而是學(xué)習行動(dòng)之后會(huì )產(chǎn)生什么樣的結果。這種方式使得學(xué)習效果不受限于數據質(zhì)量,能大大降低數據收集成本,解決了數據消耗量巨大、需要大量高質(zhì)量數據的行業(yè)難題。
此外,星動(dòng)紀元的技術(shù)團隊已將世界模型融入原生機器人大模型中,使得模型不僅具備行動(dòng)能力,還具備了對物理世界的理解能力,能夠對未來(lái)行動(dòng)軌跡進(jìn)行預測。
后期,星動(dòng)紀元探索了融合世界模型的原生機器人大模型
星動(dòng)論文Prediction with Action: Visual Policy Learning via Joint Denoising Process發(fā)表在NeurIPS 2024
還能迅速響應外部干擾,并在任務(wù)執行過(guò)程中持續自適應優(yōu)化行為,直至任務(wù)完成。提升了機器人執行任務(wù)的高效性和準確性。
星動(dòng)紀元打造的端到端原生機器人大模型ERA-42憑借其預測能力,模型具備強大的泛化、自適應和規;芰。結合星動(dòng)紀元為AI打造的全新硬件平臺,可快速實(shí)現具身智能體軟硬件協(xié)同進(jìn)化和商業(yè)化落地。
3. 星動(dòng)紀元端到端原生機器人大模型ERA-42引領(lǐng)具身大模型進(jìn)入通用靈巧操作時(shí)代
1)相比夾爪,星動(dòng)X(jué)HAND1已經(jīng)可以完成100多種精細化、智能化的復雜靈巧操作任務(wù)
相比夾爪,基于ERA-42能力,五指靈巧手能夠真正像人手一樣使用更多種多樣的工具,完成更通用、靈巧性更強、復雜度更高的百種以上操作任務(wù)。
基于ERA-42,五指靈巧手星動(dòng)X(jué)HAND1相比夾爪能使用更多不同工具執行更靈巧操作
2)星動(dòng)紀元原生機器人大模型ERA-42能理解物理世界和預測未來(lái)
融合世界模型后,ERA-42具備對物理世界的理解以及對未來(lái)的預測的能力,從而大幅提升了泛化能力和任務(wù)成功率。
例如,下圖中上方的圖片展示了真實(shí)物理世界中打開(kāi)冰箱的逐幀操作,下方的圖片則為ERA-42生成的環(huán)境建模與對打開(kāi)冰箱任務(wù)的逐幀預測?梢钥吹絻蓮垐D片非常接近,說(shuō)明模型預測非常準確。這與其他機器人大模型直接學(xué)習行動(dòng)、而忽視對世界本身理解的方式,或者僅將世界模型用于生成仿真數據的方式,存在本質(zhì)的區別。
真實(shí)世界執行任務(wù)和ERA-42預測執行任務(wù)對比圖
3)星動(dòng)紀元原生機器人大模型ERA-42具備更強泛化能力
基于大規模視頻數據的預訓練,只需采集少部分數據,基于ERA-42的泛化能力,短時(shí)間內通過(guò)單一的策略靈巧手就能學(xué)會(huì )執行新的操作任務(wù)。此前,星動(dòng)紀元技術(shù)團隊就通過(guò)這種訓練方式采集簡(jiǎn)單的紅黃藍方塊抓取數據,成功實(shí)現了從未見(jiàn)過(guò)的多樣化物體(如胡蘿卜、茄子等)的抓取泛化,并相對其他模型算法在泛化任務(wù)上顯著(zhù)提升了成功率。
通過(guò)簡(jiǎn)單彩色方塊的抓取數據實(shí)現多樣化物體的泛化抓取操作
4)星動(dòng)紀元原生機器人大模型ERA-42具備更強自適應性
由于融合了世界模型,ERA-42不管在單任務(wù)上,還是長(cháng)序列任務(wù)上都展現出了業(yè)內領(lǐng)先的強大抗干擾能力。
5)星動(dòng)紀元原生機器人大模型ERA-42初步體現“Scaling效應”
并且研究結果表明,隨著(zhù)模型規模的擴大,任務(wù)成功率也明顯提升,初步體現了和大語(yǔ)言模型訓練中類(lèi)似的“Scaling效應”,即模型規模與性能之間的正相關(guān)性。
“Scaling效應”顯示模型與機器人性能呈現正相關(guān)性
4.星動(dòng)紀元端到端原生機器人大模型ERA-42和為AI打造的全新硬件平臺協(xié)同進(jìn)化,共建原生具身智能體
構建通用具身智能體需要軟硬件協(xié)同迭代,就像人類(lèi)的腦和身體是從小到大同步協(xié)同成長(cháng)的一樣。
構建原生通用具身智能體=原生機器人大模型+為AI定義的硬件平臺協(xié)同進(jìn)化
因此,星動(dòng)紀元打造了為AI定義的全新硬件平臺。以星動(dòng)自研推出的五指靈巧手星動(dòng)X(jué)HAND1為例,共有12個(gè)主動(dòng)自由度,并采用純電驅方式,且每個(gè)自由度都有對應的驅動(dòng)源,實(shí)現全自主五指關(guān)節驅動(dòng),能執行高精度任務(wù)。星動(dòng)X(jué)HAND1每個(gè)手指配備一個(gè)高分辨率(》100點(diǎn))觸覺(jué)陣列傳感器,提供精確的三維力觸覺(jué)和溫度信息。單手最大握力能達80N,負載可達25kg。
星動(dòng)X(jué)HAND1 —— 全自驅 真自由
星動(dòng)X(jué)HAND1在作業(yè)能力上展現出的高性能在協(xié)同ERA-42后,為實(shí)現復雜靈巧操作任務(wù)奠定了基礎。
依托ERA-42,星動(dòng)紀元通用人形機器人執行任務(wù)的通用性和泛化性將大幅提升,結合此前發(fā)布的在復雜多樣的地形上穩定行走和奔跑的運動(dòng)性能,配合上下肢協(xié)同作業(yè)能力,潛在應用場(chǎng)景也將更加多元化,真正實(shí)現原生的通用具身智能體的產(chǎn)業(yè)化落地。
廣告
- 變革創(chuàng )新·聚勢超越 丨宏陶瓷磚2025年度全國
- 桂林旅游選舉新董事長(cháng)
- GTC澤匯資本雄鷹獎之夜璀璨收官
- 泓基集團與港交所達成戰略合作 共同推進(jìn)“中
- 拿捏!高效掌握離線(xiàn)數據,讓數據資產(chǎn)快速釋放
- 亞信科技參加2024通信產(chǎn)業(yè)大會(huì ) CTO歐陽(yáng)曄博士
- 星紀魅族 Flyme Auto 1.7.0 重磅煥新!
- 美議息后黃金大跌50美金再反彈,黃金AI預計年
- 攜手喀美,智啟未來(lái) —— 2024 CAME線(xiàn)上品牌
- 金光集團APP(中國)閃耀鏈博會(huì ),展示綠色價(jià)
- 變革創(chuàng )新·聚勢超越 丨宏陶瓷磚2025年度全國
- 桂林旅游選舉新董事長(cháng)
- GTC澤匯資本雄鷹獎之夜璀璨收官
- 泓基集團與港交所達成戰略合作 共同推進(jìn)“中
- 拿捏!高效掌握離線(xiàn)數據,讓數據資產(chǎn)快速釋放
- 亞信科技參加2024通信產(chǎn)業(yè)大會(huì ) CTO歐陽(yáng)曄博士
- 星紀魅族 Flyme Auto 1.7.0 重磅煥新!
- 美議息后黃金大跌50美金再反彈,黃金AI預計年
- 攜手喀美,智啟未來(lái) —— 2024 CAME線(xiàn)上品牌
- 金光集團APP(中國)閃耀鏈博會(huì ),展示綠色價(jià)