AI日報|Qwen3.7-Plus 能操作介面?Bernini 影片編輯新架構、Mellum2 開源與 Cursor 方案變動
AI 焦點日報:Qwen3.7-Plus 操控全域介面,字節跳動 Bernini 翻新影片編輯邏輯 AI 領域每天都有令人驚豔的新進展。說實話,要跟上這些技術發布的腳步確實有些吃力。今天盤點了幾項近期最具影響力的技術更新,涵蓋了強大的多模態智能體、開源影片生成模型,再到與開發者切身相關的工具計費方案調整與社群動態。 接著來逐一解析這些新技術的核心亮點,以及它們將如何影響未來的軟體工程與內容創作工作流。 阿里通義發布 Qwen3.7-Plus:看懂並親自操作介面的全能智能體 業界期待已久的多模態重大升級終於到來。根據 Qwen 官方部落格文章 的詳細介紹,新推出的 Qwen3.7-Plus 將視覺理解與語言推理完美揉合在一起。這款模型具備極為強大的「混合智能體(Hybrid Agent)」能力。 你知道嗎?以往的模型多半只能做到「看圖說故事」,現在的 Qwen3.7-Plus 卻能直接讀取螢幕、操作圖形使用者介面(GUI),甚至在指令列(CLI)環境中完成端到端的複雜任務。舉例來說,當輸入一張參考設計圖或是一段影片,模型就能直接吐出可執行的 SVG 或網頁前端程式碼。 軟體開發的自動化里程碑 這項技術在實際應用上的表現非常驚人。基於 Qwen3.7-Plus 構建的智能體系統,曾創下連續穩定運行超過 11 個小時的紀錄。在這個過程中,它全程自主完成了一款英文單字學習 APP 的完整研發閉環。從最初的需求文件生成、程式碼編寫,一路包辦到測試案例建立與介面自動化測試,總共生成了超過一萬行程式碼。 對於專業桌面應用情境,模型也能做到一鍵自主復刻。它曾全程自主完成了 macOS 原生股市 APP 的高保真復刻,包含串接真實 API 獲取即時市場數據。開發者現在可以無縫將其整合到主流的開發框架中,包含 Claude Code、OpenClaw 以及 Qwen Code 都能穩定支援。 使用者若想親自體驗這項技術,目前已經可以透過阿里雲百煉 API 直接呼叫服務,系統同時支援保留前序輪次思維內容的進階功能,非常適合用來打造持久運行的智能體。



