AI日報｜Qwen3.7-Plus 能操作介面？Bernini 影片編輯新架構、Mellum2 開源與 Cursor 方案變動

AI 焦點日報：Qwen3.7-Plus 操控全域介面，字節跳動 Bernini 翻新影片編輯邏輯

AI 領域每天都有令人驚豔的新進展。說實話，要跟上這些技術發布的腳步確實有些吃力。今天盤點了幾項近期最具影響力的技術更新，涵蓋了強大的多模態智能體、開源影片生成模型，再到與開發者切身相關的工具計費方案調整與社群動態。

接著來逐一解析這些新技術的核心亮點，以及它們將如何影響未來的軟體工程與內容創作工作流。

阿里通義發布 Qwen3.7-Plus：看懂並親自操作介面的全能智能體

業界期待已久的多模態重大升級終於到來。根據 Qwen 官方部落格文章的詳細介紹，新推出的 Qwen3.7-Plus 將視覺理解與語言推理完美揉合在一起。這款模型具備極為強大的「混合智能體（Hybrid Agent）」能力。

你知道嗎？以往的模型多半只能做到「看圖說故事」，現在的 Qwen3.7-Plus 卻能直接讀取螢幕、操作圖形使用者介面（GUI），甚至在指令列（CLI）環境中完成端到端的複雜任務。舉例來說，當輸入一張參考設計圖或是一段影片，模型就能直接吐出可執行的 SVG 或網頁前端程式碼。

軟體開發的自動化里程碑

這項技術在實際應用上的表現非常驚人。基於 Qwen3.7-Plus 構建的智能體系統，曾創下連續穩定運行超過 11 個小時的紀錄。在這個過程中，它全程自主完成了一款英文單字學習 APP 的完整研發閉環。從最初的需求文件生成、程式碼編寫，一路包辦到測試案例建立與介面自動化測試，總共生成了超過一萬行程式碼。

對於專業桌面應用情境，模型也能做到一鍵自主復刻。它曾全程自主完成了 macOS 原生股市 APP 的高保真復刻，包含串接真實 API 獲取即時市場數據。開發者現在可以無縫將其整合到主流的開發框架中，包含 Claude Code、OpenClaw 以及 Qwen Code 都能穩定支援。

使用者若想親自體驗這項技術，目前已經可以透過阿里雲百煉 API 直接呼叫服務，系統同時支援保留前序輪次思維內容的進階功能，非常適合用來打造持久運行的智能體。

字節跳動開源 Bernini：用語義規劃重塑影片生成與編輯

影片生成的技術邏輯正在發生有趣的轉變。字節跳動研發團隊帶來了全新的 Bernini 專案，這是一個結合了大型多模態語言模型（MLLM）與擴散模型（DiT）的統一個架構。

傳統的影片模型通常會將理解與生成混合處理，這往往會造成運算資源浪費或是細節流失。Bernini 採用了非常聰明的分工策略。MLLM 負責高階的「語義規劃（Semantic Planning）」，預測目標的 ViT 嵌入向量特徵。接著，DiT 渲染器接手，負責將這些語義特徵轉化為極具真實感的像素畫面。

解決多重視覺特徵混淆的技術巧思

處理影片編輯時，模型經常會面臨一個難題，就是如何區分原始影片、參考圖片與目標輸出的特徵。為了克服這一點，研發團隊引入了「片段感知 3D 旋轉位置編碼（SA-3D RoPE）」。這項技術為不同的視覺素材賦予獨立的索引標籤，確保渲染器在合成畫面時不會把參考圖片的背景錯誤地貼到最終生成的影片中。

在實際的效能評測上，Bernini 展現了統治級的實力。無論是影片到影片的編輯（V2V），還是參考圖像引導的編輯（RV2V），它的畫面一致性與指令遵循能力都超越了目前市面上的主流產品，包含 Kling O3 與 Wan2.7。

更棒的是，開發團隊已經全面開放了這項技術。有興趣的研究人員可以前往閱讀研究論文 Bernini: Latent Semantic Planning for Video Diffusion，並可以直接從 ByteDance/Bernini 模型下載獲取完整的推論程式碼與模型權重。

JetBrains 推出 Mellum2：專為程式碼工作流程打造的輕量專家

有時候，完成任務並不需要出動最龐大、最耗資源的超級模型。知名開發者工具公司 JetBrains 正式將其研發的 Mellum2 模型開源。相關技術細節已發布在 JetBrains 官方部落格介紹中。

Mellum2 是一個採用混合專家架構（MoE）的 12B 參數模型。由於其獨特的架構設計，每個 token 實際啟動的參數僅有 2.5B。這使得它在保持高效能的同時，具備了極低的延遲與超高的吞吐量。

專注於純粹的文字與程式碼任務

與前面提到的多模態模型不同，Mellum2 刻意避開了圖片與影片處理。它完全專注於自然語言與程式碼資料的訓練。這種「偏科」反而讓它在軟體工程環境中如魚得水。

不論是分析傳入的提示詞來決定呼叫哪個工具、建構低延遲的檢索增強生成（RAG）管道，或是把複雜的開發工作拆解給子代理（Sub-agents）執行，Mellum2 都能展現出極致的效率。

這款模型採用 Apache 2.0 授權，非常適合企業將其部署在本地環境以保護程式碼隱私。開發者可以透過 Hugging Face 發布說明了解更多，並在 Hugging Face 專屬合集取得相關資源。

Cursor Teams 方案升級：重度開發者的福音

開發工具的計費方式總是牽動著團隊的營運成本。根據最新的 Cursor 官方公告，自 2026 年 6 月起，Teams 方案迎來了一次重要的結構性優化。

團隊管理者現在可以更精確地掌控支出。標準席位（每月 40 美元）的用量額度獲得了顯著提升。更重要的是，系統將配額明確拆分為兩個獨立的池子：一個專門用於 Cursor 自家的 Composer 與 Auto 功能，另一個則用於消耗第三方 API 模型。

針對極端用量的新解方

仔細觀察任何一個開發團隊，通常都會發現只有少數幾位「重度使用者」會消耗掉絕大部分的 AI 額度。為了防堵這類突發性的隨選成本，Cursor 推出了全新的 Premium 席位。

只需支付大約 3 倍的成本（年繳方案每月 120 美元），就能獲得標準席位 5 倍的包含用量。這意味著團隊可以自由混搭不同類型的席位，確保每一分錢都花在刀口上。管理後台現在也會即時顯示距離用量上限的進度，並能設定智慧警示，有效避免月底出現驚人的帳單數字。

Codex 額度重置引發社群熱議：每週變每月？

最後來看一則引發開發者社群強烈反彈的消息。近期在 Reddit 平台上，一篇名為「Weekly reset became monthly reset?」的 Reddit 討論串引起了極大的共鳴。

許多依賴免費帳號或 Go 方案進行日常開發的使用者突然發現，原本每 7 天就會重置一次的額度，毫無預警地被拉長到了 30 天。對於習慣在週末寫寫個人專案的學生或業餘愛好者來說，這無疑是個沉重的打擊。

這確實讓人感到錯愕。討論串中充滿了各種猜測與抱怨，有人懷疑這是否為系統故障，但更多人認為這是官方有意為之的策略調整。面對這種突如其來的限制，不少開發者表示正在尋找替代方案，甚至開始準備將工作流程全面遷移至收費更低廉的 DeepSeek API。這起事件再次凸顯了過度依賴單一雲端服務提供商可能面臨的潛在風險。

問與答

Q1：阿里通義新推出的 Qwen3.7-Plus 模型與以往的視覺模型有何不同？ A：Qwen3.7-Plus 是一個多模態交互混合智能體，它不僅能看圖，還能直接讀取螢幕、操作圖形使用者介面（GUI）以及在指令列（CLI）環境中執行任務。此外，它具備強大的視覺程式碼生成能力，例如能將圖像、影片或 UI 截圖直接轉換為可執行的 SVG 或網頁前端程式碼。

Q2：字節跳動的 Bernini 模型如何解決影片編輯中常見的特徵混淆問題？ A：Bernini 採用了**片段感知 3D 旋轉位置編碼（Segment-Aware 3D RoPE）**技術。這項技術能夠為不同的視覺素材區分標記，確保在渲染畫面時，能有效辨識來自不同視覺片段（如參考圖像與原始影片）的特徵，避免合成時發生錯亂。

Q3：JetBrains 開源的 Mellum2 模型為何特別適合軟體開發工作流程？ A：Mellum2 是一個 12B 參數的混合專家（MoE）模型。它秉持著「專注」的哲學，避開了複雜的圖片或影片處理，專注於文字與程式碼任務。這使其具備極低的延遲和高效率，非常適合用於分配子代理（Sub-agents）、本機私有化部署，以及打造快速的 AI 工作流。

Q4：Cursor 針對團隊方案（Teams）中的「重度使用者」提出了什麼樣的新計費解方？ A：Cursor 引入了全新的 Premium 席位。企業可以為這些高用量開發者支付大約 3 倍的成本（月繳 120 美元，年繳每月 96 美元），從而獲得標準席位 5 倍的包含用量。同時，後台也提供了即時的用量顯示儀表板，並能設定智慧警示，在花費超標前透過 Slack 或電子郵件通知管理員。

Q5：開發者社群最近對 Codex 額度重置的抱怨主要為何？有開發者提出什麼替代方案？ A：使用免費帳號與 Go 方案的使用者發現，Codex 的額度重置週期毫無預警地從原本的每週（7天）延長變成了每月（30天）重置一次。面對這個突如其來的限制，有開發者表示正準備將工作流程全面遷移至收費更低廉的 DeepSeek API 作為替代方案。

分享至:

Featured Partners

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

SPONSORED

scribis.app

Scribis: 字幕編輯、語音轉錄文字、即時顯示轉錄文字。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

SPONSORED

scribis.app

Scribis: 字幕編輯、語音轉錄文字、即時顯示轉錄文字。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

Recommended for You

A …

news

AI日報｜OpenAI GPT-5.6 Sol 登頂資安 SOTA！Meta 擬與 Anthropic 達成百億算力交易

AI 日報 | 2026-07-18 💡 此文章完全由 AI 產生，每天早上九點自動更新。模型發布/更新 GPT-5.6 Sol / Terra — OpenAI 一言以蔽之：OpenAI 的 GPT-5.6 Sol 在網路安全靶場創下 SOTA 新紀錄，而 Terra High 則在程式碼審查上展現出驚人的性價比。核心亮點：網路安全防禦登頂：GPT-5.6 Sol 在 “The Last Ones” 網路安全靶場上大展身手，能自主發現、驗證並修復真實程式碼中的漏洞，成為防禦端的新利器。不再需要 /goal 指令：共同創辦人 Greg Brockman 指出，GPT-5.6 Sol 已能自動且不懈地執行任務直至完成，成為首個不需要手動指定階段目標的模型。 Terra 降本提效：開發者實測發現，5.6 Terra High 的整體速度比 5.5 快上 40% 且品質幾乎無損，在實際的 Clawsweeper 專案中展現極高的性價比。技術規格：閉源 / 網路安全 SOTA / 具備自動化目標執行（Auto-goal execution）能力。傳送門：OpenAI 官方 X 貼文 GPT-5.6 Sol sets a new state of the art in cybersecurity on “The Last Ones” cyber range. We’re already seeing that capability translate into defensive outcomes: helping teams find, validate, and fix vulnerabilities in real-world code. Put it to work with Codex Security:… pic.twitter.com/e4KqKXKAnL

Jul 18, 2026 Read →

A …

news

AI日報｜Kimi 釋出 2.8 兆參數 K3 模型、Gemini 代理上線、小米破除機器人資料壁壘

AI日報｜Kimi 釋出 2.8 兆參數 K3 模型、Gemini 代理上線、小米破除機器人資料壁壘今天的 AI 圈依然熱鬧。Kimi 端出了 2.8 兆參數的開源巨獸，Google 則在設法不讓 AI 代理花光開發者的錢，而 OpenAI 正忙著修補把使用者電腦家目錄刪除的超大包。以下是今天的重點整理。 2.8 兆參數的開源巨獸：Kimi K3 Kimi 發布了擁有 2.8 兆參數的開源模型 Kimi K3: Open Frontier Intelligence，支援 100 萬 Token 的上下文長度。架構上，它利用 KDA 與 AttnRes 組合來處理長文本注意力與特徵擷取，並透過 Stable LatentMoE 技術在 896 個專家網路中精準活化 16 個。最引人注目的是，它在 48 小時內自主完成了奈米晶片的設計與驗證。即使跑分還未全面超越 Claude Fable 5 或 GPT 5.6 Sol，K3 已是目前開源界難以忽視的重量級選手。

Jul 17, 2026 Read →

A …

news

AI日報｜X 平台承諾全面開源、OpenAI 推出實體鍵盤 Codex Micro、SpaceXAI 釋出 Grok Build 原始碼

AI日報｜X 平台承諾全面開源、OpenAI 推出實體鍵盤 Codex Micro、SpaceXAI 釋出 Grok Build 原始碼今日的重點新聞涵蓋社交平台的完全透明化計畫、實體硬體創新，以及各大人工智慧工具的全面升級，顯示出尖端技術已徹底融入日常開發與生活。接下來為您逐一整理今天的熱門話題與新工具應用。 1. 馬斯克宣布 X 平台程式碼全面開源馬斯克最近在 X 平台上的推文承諾，一旦完成安全漏洞審查，X 平台的完整程式碼將會毫無保留地對外公開。為了確保完全透明，官方將邀請第三方審查人員來檢驗運行中的系統，比對開源程式碼與實際運作的系統是否一致。未來任何人都能親自驗證 X 平台上運行的演算法。藉由完全透明來建立信任，是目前消除演算法偏見疑慮的有效解方，這對整個科技產業具有高度的指標性意義。 Once we have completed our review for security vulnerabilities, we will make the entire codebase of 𝕏 open source, with no exceptions. Moreover, we will invite third party reviewers to examine the system that is running to confirm that the open source code is what is running.…

Jul 16, 2026 Read →

AI日報｜Qwen3.7-Plus 能操作介面？Bernini 影片編輯新架構、Mellum2 開源與 Cursor 方案變動

AI 焦點日報：Qwen3.7-Plus 操控全域介面，字節跳動 Bernini 翻新影片編輯邏輯

阿里通義發布 Qwen3.7-Plus：看懂並親自操作介面的全能智能體

軟體開發的自動化里程碑

字節跳動開源 Bernini：用語義規劃重塑影片生成與編輯

解決多重視覺特徵混淆的技術巧思

JetBrains 推出 Mellum2：專為程式碼工作流程打造的輕量專家

專注於純粹的文字與程式碼任務

Cursor Teams 方案升級：重度開發者的福音

針對極端用量的新解方

Codex 額度重置引發社群熱議：每週變每月？

問與答

DMflow.chat

scribis.app

videoweaver.app

DMflow.chat

DMflow.chat

scribis.app

videoweaver.app

DMflow.chat

Recommended for You

AI日報｜OpenAI GPT-5.6 Sol 登頂資安 SOTA！Meta 擬與 Anthropic 達成百億算力交易

AI日報｜Kimi 釋出 2.8 兆參數 K3 模型、Gemini 代理上線、小米破除機器人資料壁壘

AI日報｜X 平台承諾全面開源、OpenAI 推出實體鍵盤 Codex Micro、SpaceXAI 釋出 Grok Build 原始碼

Leaving Website