news

AI 日報 | Google 廣告助手、Cohere 企業模型與 Stable Audio 3.0

May 21, 2026
Updated May 21
2 min read

每日 AI 脈動:Google 行銷助手與各大開源模型最新進展

每天都有新的科技工具問世。大家看著這些技術一步步成熟,實在令人感到非常興奮。今天的 AI 日報帶來各大科技巨頭的最新進展。內容涵蓋 Google 廣告的新型 AI 代理、Cohere 專為企業打造的強大開源模型、字節跳動的輕量多模態黑馬,以及 Stability AI 給音樂創作者的全新大禮。接下來就一起來看看這四個值得留意的重點消息。

廣告行銷好幫手登場?認識 Google Ask Advisor

廣告投放有時的確讓人頭痛。行銷人員常常需要來回切換不同的數據分析平台。現在 Google 推出 Ask Advisor 來解決這個惱人的問題。這是一個跨產品的 AI 代理,它實際上是在幕後協調了一整個專家代理團隊(team of expert agents),隨時作為行銷人員的全天候協作夥伴與問題解決專家。它巧妙地將 Google Ads、Google Analytics 以及 Google Marketing Platform 的資源完全整合在一起。

只要輸入類似「幫洗髮精產品找新客戶」的自然語言指令。這個助手就會自動從 Merchant Center 抓取商品細節,接著直接建立新的廣告活動。這聽起來很省事,對吧?使用者根本不需要具備高超的數據分析技巧。Ask Advisor 會直接解釋哪些行銷策略奏效,同時給出下一步的具體建議。

它甚至能預先提供客製化的建議。這大大節省了團隊摸索的時間。許多人可能會好奇,這個工具什麼時候才能普及?目前這個功能已經針對英文帳戶推出測試版,未來幾個月會陸續釋出更多新特色。

企業專屬的運算利器:Cohere Command A+

接下來要聊聊 Cohere 發布的 Command A+。這是一個非常吸引人的混合專家架構模型。它專為企業的高效能運算任務而設計,也是推動 Cohere 企業級 AI 整合工作區「North」進步的核心動力。

提到企業級應用,隱私控制和硬體資源總是大家最關心的重點。Command A+ 採用 Apache 2.0 授權開放。最令人驚訝的是,它最低只需要兩張 NVIDIA H100 GPU 就能順利運行,且具備高達 128K 的輸入上下文長度與 64K 的最大生成長度。這確實大幅降低了企業自行部署硬體的門檻。它擁有 2180 億的總參數,但每次啟動時只會用到 250 億的活躍參數。

這裡稍作解釋。所謂的混合專家架構,就像是一家大公司裡有各個領域的專屬顧問。遇到特定問題時,系統只會喚醒對應的顧問來處理。此外,它還採用了為 MoE 架構最佳化的投機解碼(speculative decoding)技術,讓文字與多模態的推理生成速度額外提升了 1.5 到 1.6 倍。這樣一來,不僅處理速度大幅提升,還能節省寶貴的運算成本。它在多國語言支援上的表現也相當亮眼,從原本的 23 種語言大幅擴展到支援 48 種語言。受惠於全新的分詞器(tokenizer),它特別提升了阿拉伯語、韓語和日語的處理效率,大幅降低了生成所需的 token 數量與推論成本。

常見問題中有人問到,該去哪裡下載這個強大的模型?答案很簡單,開發者目前可以直接前往 Hugging Face 或是 Model Vault 平台取得權重資料,甚至能直接體驗它的代理運作流程。

輕巧卻強悍的多模態新星:字節跳動 Lance 模型

第三個焦點是字節跳動帶來的 Lance 多模態模型。大家另外也可以在 Hugging Face 上的 Lance 頁面 找到完整的測試資源與架構說明。

說到多模態,大家通常會聯想到那些體積龐大的巨獸級模型。但 Lance 卻反其道而行。它僅有 30 億的活躍參數。這個體積算是非常小巧的,更難得的是,開發團隊完成從頭訓練的過程,最高僅動用了不到 128 張 GPU,展現了極高的資源利用效率。儘管如此,它卻能同時包辦圖像生成、影片理解甚至影片編輯等多重任務。

開發團隊完全從頭開始訓練這個模型,其底層是基於開源的 Qwen2.5-VL 進行初始化,並打造了「雙專家架構」——一個專門負責理解,另一個專門負責生成。他們把所有的視覺和文本任務整合在單一架構下。這就像是讓一個全能助理同時學會畫畫、看影片和寫作,兩者在同一個模型中協作卻不會互相干擾。它在各項開源測試中的表現毫不遜色。很多開發者常常疑惑,這麼小的模型真的能處理影片嗎?事實證明,Lance 在多輪一致性編輯和長度達數秒的影片生成上,都能給出令人滿意的成果。

音樂創作者的新靈感:Stable Audio 3.0

最後一個亮點屬於藝術家和音樂愛好者。Stability AI 正式公開了 Stable Audio 3.0。大家也能在 Stable Audio 3 專區 查看完整的模型系列資訊。

這個版本最大的特色是它提供了最長達六分鐘的音訊生成能力,這系列總共細分為四款模型以應對不同需求:專門生成 2 分鐘音效的 3.0 Small SFX、適合 2 分鐘短曲目的 3.0 Small、能生成長達 6 分 20 秒的 3.0 Medium,以及透過 API 為企業提供最高音質的 3.0 Large。音樂創作本身就是一個充滿靈感碰撞的過程。現在,創作者可以透過 LoRa 技術來微調模型,讓系統學習自己專屬的音樂風格。這套模型採用了全新的語義聲學自編碼器,讓生成的音軌更加流暢自然。更驚豔的是,它支援「音訊修復(inpainting)」與「延伸(outpainting)」功能。這代表您可以單獨替換音軌的某個小片段,或是在原曲結尾處繼續向後延伸擴充,不需要每次都重新生成一首新歌。

另外,它的 3.0 Small 版本甚至可以直接在筆記型電腦等一般裝置上離線運行。這對經常在外奔波的創作者來說非常方便。關於版權與商業化的問題,只要企業年收入不超過 100 萬美元,就能夠根據社群授權自由使用並將生成的音樂商業化。這對獨立音樂人無疑是個絕佳的創作輔助工具。

科技發展的腳步總是讓人目不暇給。看著這些工具不斷推陳出新,未來的創作與工作模式肯定會變得更加有趣。

問與答 (Q&A)

Q1:Google 推出的 Ask Advisor 主要是為了解決什麼問題?它具體能怎麼幫到行銷人? A: 主要是為了解決行銷人員需要在多個不同平台(如 Google Ads 和 Google Analytics)之間來回切換分析數據的痛點。Ask Advisor 在幕後協調了一個「專家代理團隊」,使用者只需輸入像「幫洗髮精產品找新客戶」的自然語言指令,它就能自動從 Merchant Center 抓取商品細節並建立廣告活動。此外,它還能跨平台分析數據並解釋行銷策略成效,目前已開放英文帳戶的測試版。

Q2:為什麼說 Cohere 的 Command A+ 特別適合企業自行部署?硬體要求會很高嗎? A: 硬體要求非常親民!Command A+ 是一款採用 Apache 2.0 授權的混合專家(MoE)架構模型。雖然它的總參數高達 2180 億,但每次運算時只會喚醒 250 億個活躍參數,因此最低只需要兩張 NVIDIA H100 GPU 就能順利運行。它還支援高達 128K 的上下文長度與 48 種多國語言(包含優化後的日韓文),能大幅降低企業部署高階 AI 的門檻與成本。

Q3:字節跳動的 Lance 模型號稱「輕量級」,它到底有多小?真的能處理影片生成嗎? A: Lance 非常小巧,只有 30 億(3B)個活躍參數,而且開發團隊從頭訓練這個模型時,最高僅使用了不到 128 張 GPU,資源利用率極高。儘管體積小,它透過獨特的「雙專家架構」(將理解與生成任務分開處理以避免互相干擾),不僅能理解圖片與影片,還能生成長達數秒的高畫質影片(最高支援 121 幀),甚至能執行複雜的多輪一致性編輯與修改。

Q4:Stable Audio 3.0 對於獨立音樂創作者最大的吸引力是什麼?可以離線使用嗎? A: 最大的亮點在於生成長度與精細編輯能力。它的 3.0 Medium 與 Large 版本現在最高可以生成長達 6 分 20 秒的完整歌曲。在編輯上,它支援「音訊修復」和「延伸」功能,代表你可以單獨替換音軌的某個小片段,或在歌曲結尾繼續向後擴充,不用每次都重作一首歌。更棒的是,它的 3.0 Small 版本支援在一般筆記型電腦上完全離線運行,且只要企業年收入不超過 100 萬美元,就能根據社群授權將生成的音樂商業化。

分享至:
Featured Partners

© 2026 Communeify. All rights reserved.