打破機器人硬體隔閡:阿里雲 Qwen-Robot Suite 帶領實體 AI 邁向新階段
大家有沒有想過一個問題?現在的 AI 可以寫程式、寫詩,甚至能通過律師考試,但為什麼連幫忙倒一杯水、摺一件衣服這麼簡單的物理動作都做不好?
其實原因很簡單,看到並不等於能做到 (Seeing is not acting)。大型多模態模型 (像是 Qwen-VL) 已經擁有了非常驚人的視覺與空間推理能力,它們能看懂畫面裡有一個紅色的杯子。要把這個「看懂」的過程轉化為機器人手臂的物理控制信號,往往才是當前具身智能 (Embodied AI) 最難跨越的鴻溝。
說實話,這正是阿里巴巴通義實驗室 (Tongyi Lab) 決定推出 Qwen-Robot Suite 的核心原因。作為該公司首個專為機器人設計的基礎模型套件,它的出現標誌著 AI 的發展軌跡已經從純粹的螢幕對話,正式踏入了「物理 AI」(Physical AI) 的實體世界。
今天就來仔細拆解這套系統,看看它到底解決了哪些長久以來的業界痛點。
機器人界的通用翻譯機:Qwen-RobotManip
要讓機器人動起來,最直接的難題就是「硬體不相容」。
想像一下,世界上有成千上萬種機器人硬體。有些是單臂,有些是雙臂,有些配備了極度複雜的靈巧手。過去如果要訓練 AI 控制這些機器人,開發者必須為每一種硬體量身打造專屬的數據庫。這不但耗時,而且根本無法擴展。
Qwen-RobotManip 的定位,正是為了解決這個「操作與互動」的根本問題。它是一個基於 Qwen3.5-4B VL 的視覺語言動作模型 (VLA)。
這裡有個非常聰明的設計。為了解決數據不相容的問題,研發團隊為它建立了一個 80 維度的標準化狀態與動作表示法 (Canonical state-action representation)。你可以把它想像成機器人界的通用語言翻譯機。它使用了相機座標系的末端執行器 (End-effector) 增量位姿。這意味著無論今天是機械狗還是雙臂機器人,它們的動作指令都能在這個標準化空間中互相轉換與共用模型。
更有趣的是數據量。這個模型在超過 38,100 小時的開源互動數據中進行了訓練,其中大量運用了「人到機器人 (Human-to-Robot)」的數據合成技術。也就是說,AI 從人類的動作中提取精華,並完美移植到了機器的肢體上。
讓自然語言成為物理法則:Qwen-RobotWorld
如果說 Manip 是解決了手腳的問題,那麼 Qwen-RobotWorld 就是解決了「預測與模擬」的問題。
這是一個由語言條件驅動的影片世界模型 (Video World Model)。它結合了 60 層的雙流 MMDiT 架構,加上凍結的 Qwen2.5-VL 編碼器。聽起來有點複雜,對吧?讓我換個方式說明。
過去我們控制機器人,可能需要寫一堆複雜的程式碼來定義座標。Qwen-RobotWorld 直接將「自然語言」變成了通用的動作介面。只要你對它輸入一句話,例如「抓起那個紅色的杯子」,模型的大腦裡就會瞬間預測並生成一段符合真實物理法則的未來視覺影片。
這不僅僅是畫面的想像。它能跨越 20 多種不同的機器人型態進行大規模的聯合訓練。在權威的 EWMBench 與 DreamGen Bench 世界模型基準測試中,這個模型均拿下了整體第一的成績。它在遵循牛頓定律、質量守恆等物理法則上獲得了滿分,運動保真度甚至領先次佳模型 33%。關於這個世界模型的技術細節與實際展示,大家可以參考 Qwen-RobotWorld 的官方技術部落格 來一探究竟。
導航與移動的完美平衡:Qwen-RobotNav
解決了手部操作和物理預測,機器人還需要一雙懂得認路的腿。
Qwen-RobotNav 是基於 Qwen3-VL 打造的可擴展導航模型。它的核心亮點在於提供了一個高度靈活的「參數化觀察介面」。這個介面包含了視覺 Token 預算以及時間衰減機制。
這代表什麼呢?它代表模型不需要為不同的任務切換大腦。無論是跟隨指令、搜尋物體、追蹤特定目標,甚至是類似自動駕駛的導航任務,全部都能統一整合在這單一模型中處理。根據測試數據顯示,結合上層的語言模型後,它在 HM-EQA 測試上比過去最佳的方法提高了 10.8%,在 EXPRESS-Bench 上提高了 15.4%,同時還讓所需的導航步數大幅減少了 77%。機器人變得更聰明,也更不會繞遠路了。
大腦與四肢的協同作業:真正的 Agentic System
當然,把這三個模型單獨拿出來看都很強,但 Qwen-Robot Suite 真正的殺手鐧在於系統整合。
這三個基礎套件從來就不是單打獨鬥的。它們會與更高級別的大型語言模型 (例如 Qwen3.6-Plus 或 Qwen3.7-Plus) 進行無縫協作,形成一個完整的代理系統 (Agentic System)。
在這個架構下,上層的語言模型扮演著「大腦 (Planner)」的角色。當你給定一個模糊且複雜的長期目標,例如「去這棟真實的辦公大樓裡找一間可以用的洗手間」,大腦會自動將這個目標拆解成無數個子任務。接著,Qwen-Robot Suite 就會化身為「執行者」,精準處理低階的物理操作與即時反應。這種分工模式讓系統擁有了長期記憶,能夠真正應付開放世界裡的各種突發狀況。
殘酷的賽場實測:面對 Google 與 NVIDIA 的表現如何?
說了這麼多技術亮點,大家一定很好奇,這套系統拿到真實的賽場上,與業界其他主流的具身智能模型相比究竟如何?
主要的同類競品包含了 Google DeepMind 備受矚目的 $\pi_0$ (pi0) 與 $\pi_{0.5}$ 系列,還有 NVIDIA 專攻物理 AI 的 Isaac GR00T 系列 (如 GR00T-MULTI)。這絕對是一場硬仗。
在標準的測試環境下,很多模型都能靠著死記硬背視覺特徵拿到高分。一旦進入嚴苛的「分佈外 (OOD)」場景,也就是引入了沒見過的背景、詭異的光線或是全新的視角時,Qwen-Robot 展現出了驚人的泛化能力。
在 LIBERO-Plus 的干擾測試中,Qwen-RobotManip 取得了 91.4% 的成功率,硬是把 $\pi_{0.5}$ 的 84.4% 壓了下去。如果你覺得這還不夠看,來看看最難克服的「跨型態機器人轉移 (Zero-Shot Cross-Embodiment)」。
這項測試極度變態。它要求模型只用 A 品牌機器人的數據訓練,然後「零樣本」直接去控制完全不同的 B 品牌機器人。在這項測試中,Qwen 的平均成功率為 23.9%,這個數字聽起來不高,但這已經是 $\pi_{0.5}$ (7.5%) 的 3.2 倍了。
在強調查合表現的 RoboChallenge 桌面操作「通用賽道」上,Qwen 更是拿下了第一名。它達成了 45% 的任務成功率。特別是在需要高度協調的雙臂任務中,差距更為明顯。例如在一個「將薯條倒進盤子」的測試裡,只有 Qwen 成功完成了任務 (成功率 30%),而包含 DM0_generalist 在內的其他競品,連一開始的抓取定位都無法順利執行。
走向商業化與未來的物理 AI
Qwen-Robot Suite 最大的優勢,就在於它那套跨硬體的標準化對齊技術。這讓它能夠像海綿一樣吸收各種異質數據,從而在未見過的複雜場景中展現出領先的適應力。
這套系統早就不是只待在實驗室裡的玩具了。阿里巴巴目前已經與部分阿里雲的企業客戶展開了試點測試 (Pilot testing)。這是實體 AI 邁向真實商業場景極為關鍵的早期步驟。
想像不久後的未來,工廠裡的機械手臂、醫院裡的輔助機器人,甚至是家裡的家事小幫手,都能透過這套系統真正「聽懂」並「做到」我們的需求。
如果你對這項技術感到好奇,阿里雲也提供了一個非常有趣的互動體驗。大家可以直接去試試這個 Qwen-Robot Suite 的實驗性網頁功能 Chat2Robot。你可以直接在瀏覽器輸入自然語言指令,即時觀看模型如何將你的文字轉化為真實的物理反應。
不過稍微提醒一下,目前的 Chat2Robot 主要是在展示 Qwen-RobotManip 的能力,並且是基於實驗性的數據庫(僅包含 50 個任務的 RoboTwin-Clean 數據集)所訓練的。它還不是最完美的最終版本,官方推出這個功能的首要目的,是為了讓大家親身體驗模型對自然語言「零樣本」指令的強大理解力。
這其實挺讓人興奮的,對吧?當 AI 不再只是冷冰冰的文字生成器,而是擁有能觸碰真實世界的雙手時,我們所認知的科技邊界,已經又往前推進了一大步。
問與答 (Q&A)
Q1:什麼是 Qwen-Robot Suite?它主要解決什麼問題? A: 這是阿里巴巴通義實驗室推出的首個「專為機器人設計」的基礎模型套件。它主要解決具身智能(Embodied AI)領域中「看到卻做不到」的痛點,幫助 AI 跨越數位與實體的鴻溝,將語言和視覺的理解力,真正轉化為機器人的物理控制信號。
Q2:這套系統包含哪幾個核心模型?各自負責什麼工作? A: Qwen-Robot Suite 包含三個獨立但可深度協作的基礎模型:
- Qwen-RobotManip(操作): 負責控制手臂與靈巧手,解決抓取、摺疊等物理互動難題。
- Qwen-RobotWorld(預測): 作為世界模型,能將自然語言直接轉化為符合物理法則的未來動作影片。
- Qwen-RobotNav(移動): 負責指路與導航,處理目標追蹤、物體搜尋與自動駕駛任務。
Q3:市面上的機器人硬體五花八門,Qwen 是如何做到「跨硬體控制」的? A: 這是 Qwen-RobotManip 最核心的突破。研發團隊為其打造了一個「80 維度的標準化狀態與動作表示法」。您可以把它想像成機器人界的通用語言翻譯機,無論今天是單臂、雙臂還是四足機器狗,都能在這個統一的空間中轉換動作,打破了過去訓練數據無法跨硬體共用的壁壘。
Q4:與 Google 或 NVIDIA 等業界大廠的機器人 AI 相比,Qwen 的實力如何? A: 在實際測試中表現非常優異。特別是在嚴苛的「分佈外(OOD)泛化測試」中,Qwen-Robot 展現了極強的環境適應力。例如在跨型態機器人轉移(Zero-Shot Cross-Embodiment)測試中,其成功率是 Google $\pi_{0.5}$ 模型的 3.2 倍;在 RoboChallenge 通用賽道上,更以 45% 的任務成功率擊敗眾多對手奪得第一。
Q5:一般人現在可以體驗到這項技術嗎? A: 可以的!阿里雲目前開放了一個名為 Chat2Robot 的實驗性網頁體驗功能。使用者可以直接在瀏覽器輸入自然語言指令,即時觀看機器人如何反應。不過官方也提醒,目前該功能主要用於展示「零樣本」的指令理解能力,仍是基於實驗性數據庫運作,未來還會持續進化。



