AI 日報: Meta SAM 3.1、Google 學術爭議與 NotebookLM 實用更新

最新 AI 產業動態：Meta SAM 3.1 影像處理大升級與 Google 論文學術爭議探討

每天都有新的技術突破，偶爾也會伴隨著一些意想不到的火花。今天帶來幾個值得關注的重頭戲。Meta 剛剛推出了全新的影像處理模型，效能表現相當驚人。另外，學術界也傳出了一些摩擦，Google 的一篇論文引發了強烈的討論。接下來帶大家一探究竟。

Meta SAM 3.1 登場，影像分割效率全面提升

Meta 最新釋出的SAM 3.1 模型確實讓人眼睛一亮。你知道嗎？過去要追蹤影片中的多個物件，系統必須為每一個物件單獨進行運算。這就像是餐廳服務生每次只能幫一桌客人點餐，效率自然高不起來。

現在情況大不相同了。SAM 3.1 導入了物件多工處理（Object Multiplexing）技術。這項改動讓模型能夠在單次前向傳遞中，同時追蹤多達 16 個物件。這意味著中等數量物件的影片處理速度直接翻倍，更在單張 H100 GPU 上追蹤多達 128 個物件時，達到了約 7 倍的推論速度提升，且完全沒有犧牲準確度。這種全局推理的設計，徹底消除了多餘的運算與記憶體瓶頸。

這不單單只是速度上的提升而已。由於整體運算資源需求降低，許多高效能的影像處理應用，現在已經可以在更親民的小型硬體上順利運行。對於想要親自測試的開發人員來說，目前可以直接前往Hugging Face 上的 SAM 3.1 專頁取得模型權重。結合純文字或是視覺提示，這套系統能夠精準處理各種極具挑戰性的影像分割任務。

學術界的震撼彈，RaBitQ 團隊指控 Google 論文不公

技術圈並不總是風平浪靜。最近，RaBitQ 團隊在知乎上發布長文，針對 Google Research 發表於 ICLR 2026 的論文 TurboQuant 提出嚴厲質疑。這裡有個關鍵的問題值得大家反思，那就是學術研究的公平性與透明度。

RaBitQ 團隊明確指出，TurboQuant 論文中使用了與他們高度重疊的隨機旋轉（Random Rotation）量化方法，卻未在正文中進行客觀的對比與標註。更讓人訝異的是實驗環境的設定差異。根據公開的信件紀錄，TurboQuant 團隊在測試 RaBitQ 的效能時，刻意關閉了多執行緒，僅使用單核 CPU 運行，隨後拿來跟自己使用 NVIDIA A100 GPU 跑出來的成績做比較。

這種硬體資源極度不對等的比較方式，自然會產生數個數量級的速度落差。此外，TurboQuant 還被指控在沒有提供任何推導證據的情況下，直接將 RaBitQ 的理論保證貶低為次優結果。這起爭議目前已經正式提交給大會主辦單位，未來的後續發展絕對值得學術界持續關注。

OpenAI Codex 推出全新使用案例庫

轉換一下心情，來看看開發工具的實用新消息。OpenAI 團隊的 Romain Huet 稍早宣布，正式推出了全新的 Codex 使用案例庫。老實說，面對強大的 AI 寫程式工具，新手有時候反而會感到迷惘，不知道該從哪個指令開始下手。

這個新推出的線上展示區，整理了各種寫程式與非寫程式任務的實際範例。最方便的一點在於，如果使用者已經在電腦上安裝了該應用程式，可以直接點擊按鈕，在 Codex 中一鍵打開這些預設的提示詞（Starter Prompts）。這大大降低了摸索的門檻，讓日常的開發與工作流程變得更加直覺且順暢。

NotebookLM 升級背景生成與推播通知

最後要分享的是一個提升生產力的實用功能。NotebookLM 發布了最新更新，讓多工處理變得無比輕鬆。

過去在生成專案筆記本或工作室內容時，往往需要停留在畫面上等待進度條跑完。現在，使用者可以在網頁或手機應用程式上啟動生成任務後，直接離開該頁面去處理其他重要事項。系統會在背景默默把繁重的工作完成。等到一切準備就緒，使用者的手機就會馬上收到推播通知。這種貼心的設計細節，確實幫大家省下了許多寶貴的時間。

常見問題解答 (FAQ)

Q: SAM 3.1 和之前的版本相比，最大的突破在哪裡？
A: 最大的突破在於導入了物件多工處理能力。SAM 3.1 能夠在單次運算中同時追蹤高達 16 個獨立物件，這讓整體影片處理速度比起舊版足足翻了一倍，同時也大幅降低了對頂級 GPU 的硬體依賴。

Q: 為什麼 Google 的 TurboQuant 論文會引發學術爭議？
A: 主要爭議點包含三個嚴重的方面。首先是未充分承認與先行研究的方法相似性。其次是實驗基準極度不公平，例如用單核 CPU 的降速設定去對比高階 A100 GPU 的結果。最後是毫無根據地批評他人已經過嚴格證明的理論成果。

Q: 新版的 NotebookLM 解決了什麼日常痛點？
A: 它解決了等待冗長內容生成時的時間浪費問題。現在系統完全支援背景處理，完成後會自動透過手機推播提醒，讓使用者可以安心關閉視窗，把專注力放在其他更重要的事情上。

分享至:

Featured Partners

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

Recommended for You

A …

news

AI 日報: 語音 AI 大爆發：Gemini、Suno、Mistral 一次看懂最新進化

語音 AI 全面進化與各大平台更新解析：從 Gemini 3.1 到 Suno v5.5 的日常應用大家最近一定有感覺到，語音技術的發展步調正不斷加快。無論是和虛擬助手對話，還是透過自動生成技術創作音樂，音訊與語音介面正逐漸成為我們日常操作的核心。今天的 AI 發展焦點幾乎都集中在「聲音」與「實用體驗」上。這篇文章整理了近期最重要的幾項技術更新。各大平台不僅大幅提升了語音互動的自然程度，也在工具的實用性上做出了許多調整。讓我們來看看這些新功能會如何影響日常的工作與娛樂。讓語音對話不再像機器人：Gemini 3.1 Flash Live 登場過去使用語音助理時，常常會遇到停頓不自然或是語氣冷冰冰的問題。不過，Google 最新推出的 Gemini 3.1 Flash Live 正在改變這個現狀。這款最新的語音模型大幅降低了延遲，同時提升了精準度。老實說，讓 AI 聽起來像真人並不容易。但 3.1 Flash Live 在處理複雜任務時，展現了更自然的對話節奏。它能夠準確捕捉使用者的語氣變化，甚至在背景吵雜的環境中也能順利運作。開發者現在可以透過 Google AI Studio 預覽這項功能，一般使用者也能在 Gemini Live 中體驗到這種更直覺的多語言對話能力。把你的聲音變成專屬樂器：Suno v5.5 的個性化音樂生成如果你喜歡創作音樂，那麼 Suno 的最新更新絕對會引起你的興趣。根據官方發布的 Suno v5.5 資訊，這款備受歡迎的音樂生成平台正式推出了「Voices」功能。人類的聲音是最古老的樂器，而現在你可以直接將自己的聲音捕捉下來，融入到 AI 生成的音樂中。

Mar 27, 2026 Read →

A …

news

AI 日報: 蘋果借力 Gemini、Figma 喚醒設計畫布與 TurboQuant 極限壓縮技術解析

掌握 AI 產業脈動：從蘋果精煉 Gemini 到 Figma 畫布解放的全面解析科技圈的發展節奏永遠充滿驚喜。各種突破性技術接連問世，不斷重塑開發者與一般大眾的日常體驗。從跨國科技巨頭的策略結盟，到設計工具的底層進化，每一項更新都牽動著未來的軟體生態。今天的解析將帶領大家一探究竟，盤點近期最關鍵的人工智慧發展動態。說真的，這些技術的演進確實令人目不暇給。準備好了解最新的產業趨勢了嗎？讓我們接著看下去。 Google Lyria 3 正式上線：用影像與提示詞編織動人樂章音樂創作的門檻再次被打破。Google 正式公開了 Lyria 3 音樂生成模型，讓開發者能透過 Gemini API 與 Google AI Studio 輕鬆打造錄音室等級的音軌。Lyria 3 提供了兩種實用的版本。Lyria 3 Pro 專注於生成長達三分鐘的完整歌曲，具備極高的音樂結構認知，能完美銜接主歌與副歌。另一方面，Lyria 3 Clip 則專攻生成速度，非常適合快速產出三十秒的背景循環音樂或社群媒體素材。讀者或許會好奇，這款模型到底有多靈活？開發者可以設定精準的節奏，提供帶有時間標記的歌詞，甚至上傳一張圖片，讓系統根據視覺氛圍生成對應的配樂。這項多模態的輸入功能，確實為社群影音與應用程式開發帶來了無窮的想像空間。你知道嗎？這種將視覺直接轉化為聽覺的魔法，正是目前生成式藝術最迷人的地方。 GitHub Copilot 隱私政策更新：你的程式碼資料去了哪裡？寫程式的輔助工具固然方便，但資料隱私始終是開發者關注的焦點。GitHub 最近發布了 Copilot 互動資料使用政策更新，對廣大使用者產生了直接影響。自 2026 年 4 月 24 日起，GitHub Copilot Free、Pro 與 Pro+ 用戶的互動資料，包含輸入內容、輸出的程式碼片段以及游標周邊的脈絡，都將預設用於訓練與改進底層模型。

Mar 26, 2026 Read →

A …

news

AI 日報: Sora App 關閉、Claude 自動模式與 LiteLLM 資安事件

Sora 終止服務與代理工具的全新演進老實說，觀察近期的科技圈動態，會發現許多意想不到的轉折。許多大家原本以為會照著既定劇本發展的產品，突然間轉換了跑道。從影音生成應用的退場，到開發者輔助工具越來越有自主權，這些事件拼湊起來，剛好描繪出科技產業逐漸走向成熟與系統化的軌跡。這背後到底意味著什麼呢？接下來就帶大家仔細爬梳這幾項重大進展，看看這幾週究竟發生了哪些大事。 Sora 應用程式正式告別，OpenAI 退出影片生成市場大家都知道，就在 2025 年 9 月底，那個曾經讓無數影音創作者驚豔的影片生成工具才剛推出獨立 App。然而，Sora 官方團隊最近卻正式宣佈即將關閉這項應用程式服務。團隊在聲明中特別感謝所有使用該工具進行創作並建立社群的使用者，也坦言這個消息可能會讓不少人感到失望。官方承諾近期會公佈應用程式與 API 的後續時程，以及協助創作者保存作品的詳細資訊。這絕對是個震撼彈。根據好萊塢報導的消息指出，OpenAI 其實已經決定完全退出影片生成業務。這項決定直接影響了娛樂巨頭迪士尼的佈局。迪士尼原本在去年底承諾投資 OpenAI 高達十億美元，並計畫授權部分知名角色進入平台，如今這筆天價交易已經宣告破局。迪士尼發言人對此給出了相當得體的官方回應，表示隨著初創的 AI 領域蓬勃發展，迪士尼尊重 OpenAI 退出影片生成業務並將重點轉移至他處的決定。發言人同時強調，迪士尼非常感謝雙方團隊的建設性合作以及從中學習到的經驗，未來也會繼續參與各種平台，尋找以負責任的方式擁抱新技術，同時確保尊重智慧財產權與創作者權利。這個舉動顯示出一個明確的產業風向。當底層模型開發商決定把精力轉移回核心邏輯與文字模型時，影片生成市場的版圖勢必會大洗牌。這也印證了應用層與底層模型的商業模式，正在經歷殘酷的市場重構。根據最新的《華爾街日報》消息證實，OpenAI 執行長 Sam Altman 已明確向員工宣布，公司將逐步淘汰所有使用其影片模型的產品。這不僅包含關閉消費者端的 Sora 獨立 App，也同時終止了針對開發者的 Sora API 版本，甚至明確表示「不會在 ChatGPT 中支援影片功能」 Claude 推出自動權限模式：把決策權交給系統當影片工具正在重新洗牌時，程式開發領域的輔助工具則迎來了有趣的升級。Anthropic 團隊稍早為旗下的開發工具推出了全新的自動權限模式 (Auto Mode)，這絕對是會讓許多工程師眼睛一亮的功能。過去使用這類寫程式的輔助工具時，開發者常常面臨一個兩難。要嘛必須不斷手動點擊批准每一次的檔案寫入和終端機指令，要嘛就是乾脆繞過所有權限檢查。繞過檢查聽起來很方便，但隨之而來的風險往往難以估計。現在，這個新模式提供了一條非常聰明的中間路線。運作原理其實相當直觀。在每次執行工具呼叫之前，系統內部的一個分類器會先評估該動作是否具有破壞性。如果分類器判斷這個動作是安全的，系統就會自動推進。如果發現有潛在風險，例如大量刪除檔案或未經授權的資料傳輸，系統就會直接出手阻擋，並引導程式嘗試其他安全的解法。當然，風險控管永遠沒有絕對的完美。官方也特別提醒，這個機制雖然降低了風險，但並無法完全消除所有隱患。強烈建議使用者還是要在隔離的沙盒環境中執行這些自動化任務。目前這項功能已經作為研究預覽版在 Team 方案中推出，而 Enterprise 和 API 使用者也會在接下來幾天陸續收到更新。這一步標誌著系統從單純的被動執行工具，邁向具備自主判斷能力的智慧代理。長時間運行應用程式：代理系統的持久戰既然談到了自主決策，就不能不提到如何讓這些聰明的系統穩定地「連續加班」。Anthropic 工程團隊最近分享了一篇關於長時間運行應用開發的架構設計文章，裡面探討的挑戰非常貼近現實。說實話，要讓系統連續運作好幾個小時並產出有價值的程式碼，難度非常高。模型在處理龐大資訊時，往往會產生「上下文焦慮」，也就是當記憶體快滿時，系統會急著把工作收尾，導致品質大幅下降。為了解決這個瓶頸，工程團隊從生成對抗網路獲得靈感，設計出了一種包含規劃者、生成者和評估者的多代理人架構。規劃者負責將大目標拆解成小任務，生成者專注於編寫程式碼，而評估者則扮演品質保證的角色。評估者甚至會像真人一樣，實際操作瀏覽器來測試介面有沒有問題。這種將工作細分並建立回饋循環的做法，成功讓系統能夠自主編寫出包含前後端的完整網頁應用程式。舉個日常生活的例子，這就像是開一家餐廳。規劃者是負責開菜單的主廚，生成者是負責切菜炒菜的廚師，而評估者就是那個挑剔的試吃員。只有試吃員點頭，這道菜才能真正端上桌。這種架構對未來的自動化營運或長時間運作的工作流程來說，提供了極具價值的參考框架。 LiteLLM 遭到供應鏈攻擊，開源生態面臨挑戰能力越強，伴隨而來的風險也就越高。就在大家為各種新功能歡呼的時候，一個嚴重的資訊安全事件也同時爆發。知名套件庫 PyPI 上的 LiteLLM 專案遭受到供應鏈攻擊，這件事立刻引起了業界的高度戒備。 LiteLLM 是一個常被用來統一呼叫多種大型語言模型 API 的好用工具，許多應用程式都會用到它。然而，在 3 月 24 日釋出的 1.82.8 版本中，被人惡意植入了會自動執行的程式碼。只要安裝了受感染的版本，每當啟動 Python 環境時，這支惡意程式就會悄悄運作。

Mar 25, 2026 Read →