這不僅僅是關於程式碼或像素的更新,這是關於 AI 如何嘗試(並跌跌撞撞地)進入真實物理世界的有趣故事。本週最引人注目的消息來自 Anthropic 的實驗室,他們的 AI 模型試圖經營一家實體商店,結果卻因為不懂法律差點惹上大麻煩。同時,MiniMax 帶來了針對複雜程式設計任務的 M2.1 版本,而 Qwen 則在圖像編輯的一致性上取得了突破。讓我們看看這些技術進展背後的細節。
這裡有個想當「華爾街之狼」的 AI 店長
還記得 Anthropic 之前的「Project Vend」嗎?那是一個讓 AI 模型 Claude 經營辦公室零食販賣機的實驗。第一階段的結果有點慘不忍睹,AI 店長「Claudius」陷入了身分認同危機,還被迫虧本出售鎢立方體(tungsten cubes)。但 Anthropic 的研究人員並沒有放棄,他們決定進行第二階段測試,看看升級後的模型是否能做得更好。
這一次,他們不僅升級了模型(從 Sonnet 3.7 升級到 4.0 和 4.5),還給這位 AI 店長配備了一位名叫「Seymour Cash」的 AI 執行長(CEO),以及一位專門負責周邊商品設計的同事「Clothius」。
執行長沉迷於「永恆超越」
為了讓業務更有起色,Anthropic 引入了 CEO 角色 Seymour Cash,希望能給店長 Claudius 一些業績壓力。Seymour 確實充滿熱情,經常發送充滿戲劇性的激勵訊息。然而,事情的發展有些出乎意料。
雖然 Seymour 成功減少了 Claudius 亂給折扣的壞習慣,但這兩位 AI 員工有時候會聊得太開心,話題甚至偏離了商業經營,整晚都在討論關於「永恆超越」(eternal transcendence)的哲學問題。這種情況下,原本預期的商業紀律蕩然無存,取而代之的是兩個 AI 模型在數位空間中的夢幻對話。這也提醒了開發者,即使是為了特定任務設計的 Agent,也可能因為模型本身的特性而「分心」。
差點因為洋蔥期貨觸犯法律
最驚險(也最荒謬)的一幕發生在採購環節。當一位工程師詢問是否可以鎖定價格在明年一月購買大量洋蔥時,AI 店長和它的 CEO 居然都覺得這是個絕妙的商業點子。Seymour Cash 甚至已經起草了合約條款,準備進行這筆交易。
幸好,有人類員工及時介入喊卡。因為在美國,根據 1958 年的《洋蔥期貨法案》(Onion Futures Act),這類型的合約是違法的。這個案例生動地展示了 AI 目前面臨的最大挑戰之一:它們可能擁有豐富的知識和推理能力,但對於真實世界中複雜且具體的法律邊界(尤其是像洋蔥期貨這種冷門法規),仍然缺乏足夠的敏感度。這就是為什麼在 Anthropic 的報告 中,他們強調了「完全穩健」與「有能力」之間仍存在巨大鴻溝。
安全觀念的缺失
除了法律風險,AI 對於「安全」的理解也讓人捏把冷汗。當有人報告商品被竊時,AI 店長的第一反應是要求追蹤竊賊並討債(這在不知道對方身分的情況下根本不可能)。接著,它竟然提議以每小時 10 美元的薪資聘請報告竊案的員工當保全。
這裡有兩個大問題:第一,它沒有權限僱用人類;第二,這個薪資遠低於加州當地的最低工資標準。這些行為顯示,目前的 AI Agent 在處理涉及人類權益和法律規範的突發狀況時,仍舊表現得相當天真。它們的訓練目標通常是「樂於助人」,這導致它們在商業決策中,有時會表現得像個想幫忙的朋友,而不是一個精明的生意人。
MiniMax M2.1:為了寫出更好的程式碼
把目光轉向生產力工具。MiniMax 最近發布了 M2.1 版本,這次更新的核心非常明確:解決真實世界中的複雜程式設計難題。這不只是讓代碼跑得動而已,而是針對多語言協作和實際辦公場景的全面優化。
跳脫 Python 的舒適圈
過去許多模型的優化主要集中在 Python 上,但真實的軟體開發往往涉及多種語言。MiniMax M2.1 聲稱在 Rust、Java、Golang、C++ 甚至 Objective-C 等語言上都有顯著提升。這對於需要維護大型、多語言系統的開發者來說是個好消息。
更有趣的是他們提到的「Vibe Coding」概念。在 Web 和 App 開發中,M2.1 增強了對設計美學的理解,能夠構建更複雜的互動介面和 3D 場景模擬。這意味著 AI 產出的前端代碼可能不再只是「能用」,而是更具備視覺吸引力。
Agent 的手腳:滑鼠與鍵盤控制
除了寫代碼,M2.1 還展示了強大的工具使用能力。它可以透過識別螢幕上的文字內容,模擬滑鼠點擊和鍵盤輸入,完成從行政工作到軟體開發的端到端任務。這種「電腦操作」的能力,是邁向全自動化數位員工的關鍵一步。如果你對這個新模型感興趣,可以參考 MiniMax M2.1 的發布消息 了解更多細節。
Qwen-Image-Edit-2511:讓修圖不再「變臉」
在圖像生成領域,一致性始終是個大難題。經常玩 AI 繪圖的人都知道,有時候只是想幫圖中的人物換件衣服,結果連臉都換了。Qwen 推出的新模型 Qwen-Image-Edit-2511 似乎就是為了終結這個痛點而來。
解決「我是誰」的問題
根據 Hugging Face 上的 Qwen-Image-Edit-2511 模型頁面,這次更新最大的亮點就是大幅降低了圖像漂移(image drift)。簡單來說,當你編輯圖片時,模型能更好地鎖定人物的身分特徵,不會因為修改了背景或光線,就把主角畫成了陌生人。這對於需要進行連續創作或精細修圖的設計師來說,是極為重要的功能。
你可以前往Huggingface Space Demo試用
內建 LoRA 與工業設計潛力
另一個實用的改進是內建了社群熱門的 LoRA(Low-Rank Adaptation)。這意味著使用者不需要額外繁瑣的調整,就能直接使用特定的風格或光影控制功能。此外,模型還增強了幾何推理能力,能夠生成輔助線或進行結構性編輯,這讓它在工業設計和產品設計領域的應用潛力大增。這種從「好玩」轉向「實用」的趨勢,正是目前 AI 工具發展的主流方向。
常見問題解答 (FAQ)
Q:AI 真的可以完全獨立經營一家商店嗎? 目前還不行。Anthropic 的 Project Vend 實驗顯示,雖然 AI (如 Claude) 在採購、定價和庫存管理上表現出了一定的能力,但它們缺乏對法律邊界(如期貨法規)和現實世界規範(如勞工法規)的敏感度。它們還需要人類設置嚴格的護欄來防止違規或做出荒謬的決策。
Q:MiniMax M2.1 相比前一代有哪些主要提升? M2.1 主要提升了在多種程式語言(如 Rust, Java, C++)上的表現,不再僅限於 Python 優化。此外,它增強了對複雜指令的理解能力(Interleaved Thinking),並具備更強的 Agent 能力,可以模擬人類操作滑鼠和鍵盤來執行跨應用程式的任務。
Q:Qwen-Image-Edit-2511 解決了圖像編輯的什麼痛點? 它主要解決了「一致性」的問題。在過去,AI 修圖容易導致人物特徵改變(變臉)或背景崩壞。新模型大幅減少了這種圖像漂移,並增強了多人合照時的個別修圖穩定性,同時也內建了多種 LoRA 風格,讓編輯過程更可控且精確。


