AI 焦點日報:Qwen3.7-Plus 操控全域介面,字節跳動 Bernini 翻新影片編輯邏輯
AI 領域每天都有令人驚豔的新進展。說實話,要跟上這些技術發布的腳步確實有些吃力。今天盤點了幾項近期最具影響力的技術更新,涵蓋了強大的多模態智能體、開源影片生成模型,再到與開發者切身相關的工具計費方案調整與社群動態。
接著來逐一解析這些新技術的核心亮點,以及它們將如何影響未來的軟體工程與內容創作工作流。
阿里通義發布 Qwen3.7-Plus:看懂並親自操作介面的全能智能體
業界期待已久的多模態重大升級終於到來。根據 Qwen 官方部落格文章 的詳細介紹,新推出的 Qwen3.7-Plus 將視覺理解與語言推理完美揉合在一起。這款模型具備極為強大的「混合智能體(Hybrid Agent)」能力。
你知道嗎?以往的模型多半只能做到「看圖說故事」,現在的 Qwen3.7-Plus 卻能直接讀取螢幕、操作圖形使用者介面(GUI),甚至在指令列(CLI)環境中完成端到端的複雜任務。舉例來說,當輸入一張參考設計圖或是一段影片,模型就能直接吐出可執行的 SVG 或網頁前端程式碼。
軟體開發的自動化里程碑
這項技術在實際應用上的表現非常驚人。基於 Qwen3.7-Plus 構建的智能體系統,曾創下連續穩定運行超過 11 個小時的紀錄。在這個過程中,它全程自主完成了一款英文單字學習 APP 的完整研發閉環。從最初的需求文件生成、程式碼編寫,一路包辦到測試案例建立與介面自動化測試,總共生成了超過一萬行程式碼。
對於專業桌面應用情境,模型也能做到一鍵自主復刻。它曾全程自主完成了 macOS 原生股市 APP 的高保真復刻,包含串接真實 API 獲取即時市場數據。開發者現在可以無縫將其整合到主流的開發框架中,包含 Claude Code、OpenClaw 以及 Qwen Code 都能穩定支援。
使用者若想親自體驗這項技術,目前已經可以透過阿里雲百煉 API 直接呼叫服務,系統同時支援保留前序輪次思維內容的進階功能,非常適合用來打造持久運行的智能體。
字節跳動開源 Bernini:用語義規劃重塑影片生成與編輯
影片生成的技術邏輯正在發生有趣的轉變。字節跳動研發團隊帶來了全新的 Bernini 專案,這是一個結合了大型多模態語言模型(MLLM)與擴散模型(DiT)的統一個架構。
傳統的影片模型通常會將理解與生成混合處理,這往往會造成運算資源浪費或是細節流失。Bernini 採用了非常聰明的分工策略。MLLM 負責高階的「語義規劃(Semantic Planning)」,預測目標的 ViT 嵌入向量特徵。接著,DiT 渲染器接手,負責將這些語義特徵轉化為極具真實感的像素畫面。
解決多重視覺特徵混淆的技術巧思
處理影片編輯時,模型經常會面臨一個難題,就是如何區分原始影片、參考圖片與目標輸出的特徵。為了克服這一點,研發團隊引入了「片段感知 3D 旋轉位置編碼(SA-3D RoPE)」。這項技術為不同的視覺素材賦予獨立的索引標籤,確保渲染器在合成畫面時不會把參考圖片的背景錯誤地貼到最終生成的影片中。
在實際的效能評測上,Bernini 展現了統治級的實力。無論是影片到影片的編輯(V2V),還是參考圖像引導的編輯(RV2V),它的畫面一致性與指令遵循能力都超越了目前市面上的主流產品,包含 Kling O3 與 Wan2.7。
更棒的是,開發團隊已經全面開放了這項技術。有興趣的研究人員可以前往閱讀 研究論文 Bernini: Latent Semantic Planning for Video Diffusion,並可以直接從 ByteDance/Bernini 模型下載 獲取完整的推論程式碼與模型權重。
JetBrains 推出 Mellum2:專為程式碼工作流程打造的輕量專家
有時候,完成任務並不需要出動最龐大、最耗資源的超級模型。知名開發者工具公司 JetBrains 正式將其研發的 Mellum2 模型開源。相關技術細節已發布在 JetBrains 官方部落格介紹 中。
Mellum2 是一個採用混合專家架構(MoE)的 12B 參數模型。由於其獨特的架構設計,每個 token 實際啟動的參數僅有 2.5B。這使得它在保持高效能的同時,具備了極低的延遲與超高的吞吐量。
專注於純粹的文字與程式碼任務
與前面提到的多模態模型不同,Mellum2 刻意避開了圖片與影片處理。它完全專注於自然語言與程式碼資料的訓練。這種「偏科」反而讓它在軟體工程環境中如魚得水。
不論是分析傳入的提示詞來決定呼叫哪個工具、建構低延遲的檢索增強生成(RAG)管道,或是把複雜的開發工作拆解給子代理(Sub-agents)執行,Mellum2 都能展現出極致的效率。
這款模型採用 Apache 2.0 授權,非常適合企業將其部署在本地環境以保護程式碼隱私。開發者可以透過 Hugging Face 發布說明 了解更多,並在 Hugging Face 專屬合集 取得相關資源。
Cursor Teams 方案升級:重度開發者的福音
開發工具的計費方式總是牽動著團隊的營運成本。根據最新的 Cursor 官方公告,自 2026 年 6 月起,Teams 方案迎來了一次重要的結構性優化。
團隊管理者現在可以更精確地掌控支出。標準席位(每月 40 美元)的用量額度獲得了顯著提升。更重要的是,系統將配額明確拆分為兩個獨立的池子:一個專門用於 Cursor 自家的 Composer 與 Auto 功能,另一個則用於消耗第三方 API 模型。
針對極端用量的新解方
仔細觀察任何一個開發團隊,通常都會發現只有少數幾位「重度使用者」會消耗掉絕大部分的 AI 額度。為了防堵這類突發性的隨選成本,Cursor 推出了全新的 Premium 席位。
只需支付大約 3 倍的成本(年繳方案每月 120 美元),就能獲得標準席位 5 倍的包含用量。這意味著團隊可以自由混搭不同類型的席位,確保每一分錢都花在刀口上。管理後台現在也會即時顯示距離用量上限的進度,並能設定智慧警示,有效避免月底出現驚人的帳單數字。
Codex 額度重置引發社群熱議:每週變每月?
最後來看一則引發開發者社群強烈反彈的消息。近期在 Reddit 平台上,一篇名為「Weekly reset became monthly reset?」的 Reddit 討論串 引起了極大的共鳴。
許多依賴免費帳號或 Go 方案進行日常開發的使用者突然發現,原本每 7 天就會重置一次的額度,毫無預警地被拉長到了 30 天。對於習慣在週末寫寫個人專案的學生或業餘愛好者來說,這無疑是個沉重的打擊。
這確實讓人感到錯愕。討論串中充滿了各種猜測與抱怨,有人懷疑這是否為系統故障,但更多人認為這是官方有意為之的策略調整。面對這種突如其來的限制,不少開發者表示正在尋找替代方案,甚至開始準備將工作流程全面遷移至收費更低廉的 DeepSeek API。這起事件再次凸顯了過度依賴單一雲端服務提供商可能面臨的潛在風險。
問與答
Q1:阿里通義新推出的 Qwen3.7-Plus 模型與以往的視覺模型有何不同? A:Qwen3.7-Plus 是一個多模態交互混合智能體,它不僅能看圖,還能直接讀取螢幕、操作圖形使用者介面(GUI)以及在指令列(CLI)環境中執行任務。此外,它具備強大的視覺程式碼生成能力,例如能將圖像、影片或 UI 截圖直接轉換為可執行的 SVG 或網頁前端程式碼。
Q2:字節跳動的 Bernini 模型如何解決影片編輯中常見的特徵混淆問題? A:Bernini 採用了**片段感知 3D 旋轉位置編碼(Segment-Aware 3D RoPE)**技術。這項技術能夠為不同的視覺素材區分標記,確保在渲染畫面時,能有效辨識來自不同視覺片段(如參考圖像與原始影片)的特徵,避免合成時發生錯亂。
Q3:JetBrains 開源的 Mellum2 模型為何特別適合軟體開發工作流程? A:Mellum2 是一個 12B 參數的混合專家(MoE)模型。它秉持著「專注」的哲學,避開了複雜的圖片或影片處理,專注於文字與程式碼任務。這使其具備極低的延遲和高效率,非常適合用於分配子代理(Sub-agents)、本機私有化部署,以及打造快速的 AI 工作流。
Q4:Cursor 針對團隊方案(Teams)中的「重度使用者」提出了什麼樣的新計費解方? A:Cursor 引入了全新的 Premium 席位。企業可以為這些高用量開發者支付大約 3 倍的成本(月繳 120 美元,年繳每月 96 美元),從而獲得標準席位 5 倍的包含用量。同時,後台也提供了即時的用量顯示儀表板,並能設定智慧警示,在花費超標前透過 Slack 或電子郵件通知管理員。
Q5:開發者社群最近對 Codex 額度重置的抱怨主要為何?有開發者提出什麼替代方案? A:使用免費帳號與 Go 方案的使用者發現,Codex 的額度重置週期毫無預警地從原本的每週(7天)延長變成了每月(30天)重置一次。面對這個突如其來的限制,有開發者表示正準備將工作流程全面遷移至收費更低廉的 DeepSeek API 作為替代方案。



