news

AI 日報: GPT-5.4 悄悄登場,Bing引入Sora 2 與 Cursor 將如何改變你的工作

March 6, 2026
Updated Mar 6
1 min read

每天打開電腦,總會發現科技圈又帶來了意想不到的驚喜。老實說,各種新技術的推陳出新確實讓人目不暇給。人們越來越習慣將各式各樣的智慧工具無縫融入日常工作之中。來解釋一下最近幾項值得關注的亮點,這些發展正悄悄改變許多人的開發與創作模式。

語言模型的再進化:GPT-5.4 悄悄登場

你知道嗎?當大家還在熟悉先前的模型操作時,OpenAI 已經正式推出了 GPT-5.4。這項更新不僅僅是帶來了更細緻的語意理解能力,更標誌著 AI 真正進入了「原生電腦操作(Native computer-use)」的新紀元。

GPT-5.4 現在能夠像人類一樣,透過觀察螢幕截圖來發出滑鼠與鍵盤指令,跨越不同應用程式自動完成複雜的工作流程。在測試電腦操作能力的基準測試中,它的表現甚至以 75.0% 的成功率超越了人類基準的 72.4%。

對於專業工作者而言,這絕對是一次極具感的升級。模型特別針對試算表分析、簡報製作與複雜文件撰寫進行了深度優化,能夠產出更具美感且精確的商業交付物。更有趣的是,在 ChatGPT 中使用的「GPT-5.4 Thinking」現在會將它的「思考計畫」提前展現出來。如果在生成過程中你發現方向偏了,甚至可以直接「中途調整」,讓 AI 立即修正路線,大幅減少了來回溝通的成本。

此外,它還支援高達 100 萬個 Token 的上下文,並引入了全新的「工具搜尋」機制與高達 1,024 萬畫素的頂級影像解析能力。科技的進步往往體現在這些微小卻關鍵的細節中,而這次的更新無疑將語言模型從「聊天對象」,正式提升為一位能幫你實際動手操作電腦的高效能數位同事。

視覺與聽覺的雙重饗宴:Sora 2 登陸 Bing 影像建立工具

這裡有一個非常有趣的進展。對於喜愛創作的人來說,微軟的 Bing 影像建立工具正式引入了 Sora 2 生成式影片功能絕對是一大福音。這款更新後的模型不僅能捕捉到更具動態感的動作,畫面也變得更加豐富逼真。

更令人興奮的是,它完美整合了音訊功能。現在輸入的視覺提示可以自然搭配音效、人聲以及各種音軌。想像一下輸入這樣的提示詞:「紀錄片視角的空拍機畫面,飛越雲層上方的小型浮島,瀑布在落下前化為水霧。無人機穩定但略帶微風飄移,呈現自然色彩。音效包含陣陣風聲。」生成的影片不僅視覺震撼,聽覺也同樣身歷其境。

微軟同時也高度重視信任與透明度議題。這些生成的影片都會加上專屬浮水印,用來明確標示為人工智慧生成。系統更採用了業界標準的內容憑證(C2PA),確保影片來源具備充分的透明度。使用者目前擁有十次免費的快速生成機會,之後則提供無限制的慢速生成服務。大家甚至能使用 Microsoft Rewards 點數來獲得額外的快速生成次數。

來源: https://x.com/JordiRib1/status/2029602049877496145

打造不間斷的軟體工廠:Cursor Automations 的實力

回到開發者的日常工作流程,Cursor Automations 的推出徹底改變了專案管理的既有樣貌。這些自動化智能體可以按照計畫持續運行,或是由 Slack 訊息、新增的 Linear 任務、合併的 GitHub PR 甚至 PagerDuty 事件來直接觸發。

當被呼叫時,智能體會在專屬的雲端沙箱中啟動,依照設定的指令精準執行任務並驗證輸出結果。著名的 Bugbot 就是一個絕佳範例。它每天被觸發數千次,專門在程式碼推送時尋找那些隱蔽的漏洞。針對安全審查,系統會在每次推送到 main 分支時進行自動檢查,自動跳過已經討論過的問題,並將高風險警告即時發送到 Slack 頻道。

在處理日常事務上,這套系統同樣表現出色。Rippling 團隊的工程師就利用自動化機制搭建了個人助理。透過定時運行的智能體,系統會自動讀取會議記錄與待辦事項,並結合 GitHub 與 Jira 的資訊,去除重複內容後生成一份極度清晰的儀表板。針對缺陷報告,智能體甚至會主動調查根本原因並嘗試提出修復方案。結合各類外掛工具,這就像是建立了一座專屬的軟體工廠,讓開發團隊的迭代速度獲得了顯著的提升。

專為行動應用量身打造的 Android Bench

評估語言模型在特定領域的能力一直是一項艱鉅的挑戰。Android 開發團隊為此發布了 Android Bench。這是一個專注於高品質 Android 開發任務的嚴謹評分系統。

市面上的評測工具往往無法涵蓋行動應用開發的特定難題,這也是該測試平台誕生的主要原因。從最新的排行榜來看,競爭顯得相當激烈。Gemini 3.1 Pro Preview 以 72.4% 的得分暫居榜首。緊追在後的是得分 66.6% 的 Claude Opus 4.6 以及 62.5% 的 GPT-5.2-Codex。其他的模型如 Claude Sonnet 4.5 以及 Gemini 2.5 Flash 也都有各自的表現數據。

這個評分系統的測試方法非常嚴密。成績是基於一百個測試案例在十次運行中成功解決問題的平均百分比。開發團隊甚至將這些測試任務建立在官方文件的最佳規範之上。對於想要親自測試的開發者,官方也大方開放了 GitHub 資源庫,讓大家可以自行複製環境並驗證這些有趣的測試結果。

終端機裡的雲端辦公室:Google Workspace CLI

對於習慣使用命令列的工程師而言,頻繁切換瀏覽器視窗確實會打斷原本流暢的工作節奏。好消息是,Google Workspace CLI 提供了一個相當直覺且俐落的解決方案。

這是一個單一的命令列工具,完美整合了各項最常用的辦公服務。無論是雲端硬碟、Gmail、日曆、試算表、文件還是 Chat 訊息,現在都能透過純文字介面來直接控制。只要敲打幾行指令,就能輕鬆管理雲端文件或是發送重要郵件。這種將日常辦公功能自然融入終端機的設計,大幅減少了工作流程中的干擾因素,讓開發者能更專心對付眼前的程式碼。

常見問題與解答

你可能會好奇,這些新技術具體該如何應用於日常之中?這裡整理了幾個相當常見的疑問。

如何開始使用帶有音效的 Sora 2 影片生成功能? 只需前往 Bing 影像建立工具網站並選擇影片選項即可。系統提供十次免費的快速生成額度,並附有浮水印與內容憑證以確保來源具備完全的透明度。

Cursor 的自動化智能體可以處理哪些具體任務? 它們能處理涵蓋安全審查、缺陷報告分類、每週變更摘要到事件回應等各種繁雜任務。開發者甚至能透過 Webhook 設定專屬的自訂事件,讓重複性的工作完全交給系統自動處理。

Android Bench 的評分依據是什麼? 這個專屬評測工具主要計算模型在一百個常見開發任務中成功解決問題的平均百分比,並透過多次運行來確保統計結果的絕對可靠性,真實反映了高品質應用開發的實際需求。

分享至:
Featured Partners

© 2026 Communeify. All rights reserved.