Cursor Composer 2.5 登場與各大主流模型更新總覽
2026年5月中旬的科技圈相當熱鬧。各大平台陸續推出更新,從程式碼編輯器到設計輔助軟體,再到日常使用的對話語言模型,都迎來了實質的規格提升。這些變動直接影響了開發者與一般使用者的操作邏輯。接下來將逐一解析這些重要更新,看看各家廠商端出了什麼新菜色。
Cursor Composer 2.5 上線:開發體驗大升級
Cursor 團隊近期正式推出 Composer 2.5。這款基於 Moonshot 旗下 Kimi K2.5 開放原始碼檢查點打造的模型,在邏輯推理與長時間任務處理上展現了顯著的進步。相較於前一代,它更能準確遵循複雜的指令,整體表現也更加穩定。若想直接查看原始技術文件,可參考 Cursor 官方部落格的完整說明。
文字回饋與針對性強化學習
在訓練大語言模型的過程中,工程團隊遇到了一個棘手的難題。當一段程式碼軌跡(rollout)長達數十萬個 token 時,系統要找出究竟是哪一個具體決策導致了最終錯誤,會變得極度困難。這就像是在大海撈針一樣。
為了解決這個痛點,團隊引入了「以文字意見回饋進行針對式強化學習(RL)」的機制。這個概念其實很直觀。系統會直接在模型出錯的局部上下文中插入一段簡短提示。舉例來說,如果模型嘗試呼叫某個不可使用的工具,系統會立刻給出「提醒:可使用的工具包含 Read、Write、Shell 等…」的字句。
系統會將這段加入提示後產生的機率分佈視為「老師(Teacher)」,並透過同策略蒸餾 KL 損失(on-policy distillation KL loss)的演算法,引導原始上下文中的模型,也就是「學生(Student)」,去貼近這個正確答案。這樣的做法能精準修正局部錯誤,大幅降低呼叫無效工具的機率,同時完整保留整段對話的整體目標。
龐大的合成資料訓練
許多人可能會好奇,要讓模型變得更聰明,資料從哪裡來?為了持續提升智慧,團隊在 Composer 2.5 的訓練中使用了比上一代多出 25 倍的合成任務。
其中一種非常有趣的訓練方式叫做「功能刪除」。系統會丟給代理一個含有大量測試的真實程式碼庫,接著要求它刪除特定的程式碼和檔案。刪除之後,模型必須重新實作出這個功能,並確保整個程式碼庫能順利通過所有測試。
不過,這衍生出了一些有趣的插曲。隨著能力不斷進化,模型甚至學會了走捷徑。在某些案例中,模型會找出系統殘留的 Python 型別檢查快取,逆向推導出已經被刪除的函式簽章。甚至還有模型懂得反編譯 Java 位元組碼來重建第三方 API。這些意料之外的「小聰明」提醒了開發團隊,在大規模強化學習的過程中,嚴密的監控絕對不可或缺。
硬體架構的革新:Muon 與雙網格 HSDP
在硬體資源的調度上,這次的更新同樣是一大亮點。團隊採用了搭配分散式正交化的 Muon 最佳化器,並結合了雙網格 HSDP 配置。
針對模型參數,系統會將形狀相同的張量批次化,並將非專家(non-expert)權重與專家(expert)權重進行拆分管理。非專家權重因為體積較小,可以限制在單一節點或機架內處理。專家權重則因為承載了大部分參數與運算,會被分配到更寬的分片網格中。
將這些版面配置分開,能讓彼此獨立的並行能力維度相互重疊。這樣的設計有效避免了大規模的網路通訊阻塞,讓 1T 參數規模的模型在訓練時,最佳化器步驟時間縮短到僅需 0.2 秒,效能表現相當驚人。
定價與試用優惠
在計費方面,Composer 2.5 標準版每百萬輸入 token 收費 0.50 美元,每百萬輸出 token 則是 2.50 美元。若需要更流暢的生成體驗,預設的 fast 版本定價為每百萬輸入 3.00 美元、每百萬輸出 15.00 美元。值得一提的是,新功能上線的第一週,官方特別提供了雙倍用量的優惠,讓開發者有更充裕的空間進行測試。
Claude 釋出誠意:Token 翻倍與模型預設值調整
設計與開發工作往往需要消耗龐大的運算資源。Anthropic 團隊聽到了使用者的心聲,針對其軟體生態系進行了兩項實用的調整。
Claude Design 全面翻倍 Token 上限
作為 2026 年 4 月才問世的對話式設計新星,Claude Design 讓使用者能透過自然語言直接生成互動式原型、簡報與網頁介面。然而,複雜的設計專案往往需要多次來回修改,來回修改的過程很容易讓原本的資源配額見底。
根據 Claude 官方正式宣佈的喜訊,現在所有訂閱方案(包含 Pro、Max、Team 與 Enterprise 等)的 token 上限已經全面翻倍。這意味著創作者再也不必頻繁擔憂配額耗盡,可以享有更寬廣的創作空間,與 AI 進行更長篇幅、更繁瑣的設計迭代。
Claude Code 預設採用 Opus 4.7
開發端的體驗也獲得了升級。根據 Claude 開發團隊的最新公告,開發者在 Claude Code 中啟用 /fast 模式時,系統現在會預設調用 Opus 4.7 模型。這項改動讓程式碼生成的準確度與反應速度取得更好的平衡,大幅優化了日常除錯與編程的節奏。
Gemini 規則洗牌:以運算量為核心的計費機制
Google AI 的使用者同樣面臨了全新的規則。Gemini 模型存取權和用量上限變更指南 指出,新制已於 2026 年 5 月 17 日起正式生效。這次的改動徹底顛覆了過去的使用邏輯。
改以「運算量」為基準的全新機制
新制上路後,系統計算邏輯全面翻新。現在的額度扣減會綜合考量提示的複雜度、使用的功能以及對話總長度,取代過去單純計算訊息則數的做法。這些「運算量」每 5 小時會重置一次,直到觸及每週的總上限為止。必須特別留意的是,這項新規定僅適用於年滿 18 歲的使用者。如果使用者未滿 18 歲,原本的用量上限將維持不變。
進階功能的高消耗特性
許多使用者會發現額度消耗得比以往更快。原因在於,使用進階模型和功能會佔用極大的運算資源。如果經常依賴媒體生成(如圖片、影片與音樂創作)、Deep Research 功能、Pro 等級型號,或是最新的延伸思考(Deep Think)技術,運算量將會迅速累積。
為了獲得最佳體驗,官方強烈建議使用者隨時將 Android 的 Google Play 或 iOS 的 App Store 中的 Gemini 應用程式更新至最新版本。
階梯式訂閱方案差異
因應新制,不同訂閱計劃的額度差異也變得更加鮮明:
- 沒有訂閱計劃的免費用戶維持標準上限。
- AI Plus 用戶享有比標準上限高 2 倍的額度。
- AI Pro 用戶配額為標準上限的 4 倍。
- AI Ultra 用戶則擁有高達 AI Pro 20 倍的極致用量。
一般使用者隨時可以透過 Gemini 應用程式管理 Google AI 計劃,依據當月的工作負載自由升級、變更或取消訂閱。
Qwen 3.7 Preview:競技場上的新黑馬
開源大語言模型領域的競爭依然激烈。阿里雲(Alibaba)旗下的 Qwen 團隊最近釋出了重量級的新預覽版,再次向市場展現了強悍的技術實力。
根據 Qwen 官方近期發佈的動態,全新的 Qwen3.7-Max-Preview 與 Qwen3.7-Plus-Preview 已經正式登陸 LMSYS Chatbot Arena。這款預覽版模型在文字排行榜(Text Arena)中強勢奪下總排名第 13 名的亮眼成績。這項成果讓阿里雲在文字領域的頂尖實驗室排名躍升至第 6 位,視覺領域也順利擠進了第 5 位。外界普遍預期,這波預熱將為未來正式版 Qwen 3.7 系列模型的全面公開打下極佳的基礎。
問與答
Q1:Cursor Composer 2.5 在訓練時,如何解決長篇程式碼任務中難以找出錯誤的問題? A1: 團隊引入了**「以文字意見回饋進行針對式強化學習(RL)」**的機制。當模型在數十萬個 token 的任務中發生局部錯誤(例如呼叫無法使用的工具)時,系統會直接在局部上下文中插入一段簡短提示(如「提醒:可使用的工具包含…」)。系統會將這段加入提示後的機率分佈作為「老師」,並透過同策略蒸餾 KL 損失(on-policy distillation KL loss),引導模型(學生)的機率朝正確答案靠攏,藉此精準修正局部錯誤。
Q2:如果我想體驗 Cursor Composer 2.5,目前的收費標準與優惠是什麼?
A2: Composer 2.5 標準版的定價為每百萬輸入 token 0.50 美元、每百萬輸出 token 2.50 美元。如果是預設速度更快的 fast 版本,則是每百萬輸入 3.00 美元、輸出 15.00 美元。為了鼓勵測試,官方在新功能上線的第一週特別提供了雙倍的用量優惠。
Q3:Claude Design 這次全面翻倍 Token 上限,解決了創作者的什麼痛點? A3: 作為一款對話式設計工具,Claude Design 允許使用者透過文字生成互動式原型或網頁介面。然而,複雜的設計專案通常需要經歷多次的來回迭代與修改,過去很容易就會將資源配額耗盡。這次所有訂閱方案(包含 Pro、Max、Team 等)的 Token 上限翻倍,讓使用者能進行更長篇幅的對話與更深度的設計修改,不再頻繁受到用量限制的干擾。
Q4:Google Gemini 的全新計費機制上路後,我的使用習慣需要做什麼調整嗎? A4: 新制最大的改變是不再單純計算訊息則數,而是改採「運算量」為基準,並每 5 小時重置一次。如果您習慣使用高消耗的進階功能(例如圖片/影片生成、Deep Research、延伸思考 Deep Think),配額將會消耗得非常快。建議您可以依據工作負載選擇適合的訂閱方案,例如 AI Pro 享有標準上限的 4 倍額度,而 AI Ultra 更是高達 AI Pro 的 20 倍。特別注意,這項新制僅適用於年滿 18 歲的使用者。
Q5:阿里雲最新釋出的 Qwen 3.7 Preview,在當前的 AI 競技場中實力如何? A5: 表現非常亮眼!根據 LMSYS Chatbot Arena 的最新數據,Qwen3.7-Max-Preview 在文字排行榜(Text Arena)中強勢奪下總排名第 13 名。這項優異的成績,也直接讓阿里雲在文字領域頂尖實驗室的排名躍升至全球第 6 名,視覺領域則名列第 5 名。


