最新 AI 發展總整理:Claude Fable 5 震撼登場與 Gemini 即時語音翻譯全面升級
科技圈的新鮮事總是接踵而來。坦白說,有時候光是消化這些新資訊就讓人頭昏眼花。不過,最近這幾天各大科技巨頭釋出的新技術,的確值得好好關注。這裡不單純只是探討文字生成模型的升級,連同語音翻譯、影像搜尋以及動畫製作,都有了突破性的進展。接下來將仔細梳理這些剛出爐的亮點,並探討它們如何實際應用於生活與工作之中。
遇見新世代的大腦:Claude Fable 5 與 Mythos 5 聯手出擊
這幾天最受矚目的消息之一,莫過於 Anthropic 團隊正式推出了 Claude Fable 5 與 Mythos 5。這兩款新模型被歸類為極高階的等級,整體能力大幅超越了先前的 Opus 系列。
Fable 5 主要是面向一般大眾開放的版本。它在軟體工程、知識工作、科學研究和視覺任務上的表現,都達到了目前的頂尖水準。舉個例子來說,Stripe 在先前的測試期間發現,Fable 5 能夠在短短一天內完成一項浩大的程式碼遷移工作,而這項工作原本需要整個工程團隊耗費整整兩個月才能做完。這聽起來有點不可思議對吧?但這確確實實發生了。此外,Fable 5 的視覺解析能力也極度敏銳,它不再需要繁雜的輔助工具,光靠觀看遊戲畫面就能獨自通關《寶可夢 火紅版》。
許多人或許會問,Fable 5 和 Mythos 5 到底有什麼差別呢?這的確是個常見的疑惑。簡單來說,這兩者的底層架構完全相同,差別僅在於安全防護機制的寬鬆程度。Fable 5 為了維護一般大眾的使用安全,加入了極為嚴格的防護限制。相對地,Mythos 5 則是特別提供給 Project Glasswing 的網路安全專家,以及未來特定的生物學研究人員使用。這些專家需要較高的權限來防禦駭客攻擊,或是加速開發新藥物。
在定價方面,這兩款模型每百萬個輸入端元 (tokens) 收費 10 美元,輸出則是 50 美元。以目前的市場行情來看,這樣的定價策略算是相當實惠,有助於讓更多開發者取得頂尖的運算資源。
跨越語言隔閡:Gemini 3.5 Live Translate 讓對話更自然
跨越語言隔閡一直是一大挑戰,尤其出國旅遊或進行跨國會議時,語言不通總讓人感到有些無助。不過,Google 全新推出的 Gemini 3.5 Live Translate 語音模型似乎找到了極佳的解法。
這款新模型支援超過 70 種語言的即時語音對語音翻譯。過去的翻譯系統通常需要等待一方說完話,系統才會開始接收並處理。這種講者輪流發言的模式,常常導致對話中斷,氣氛也容易變得尷尬。Gemini 3.5 Live Translate 完全打破了這項限制,採用了連續的串流處理技術。也就是當講者還在發言時,系統就已經開始同步翻譯。最特別的是,它還能保留講者原本的語氣、語調和說話節奏。這讓整段對話聽起來非常流暢自然。
一般使用者可以在哪裡體驗這項功能呢?目前這項技術已經逐步推廣至各大平台。針對一般大眾,現在只要打開 Android 或 iOS 上的 Google 翻譯應用程式,接上耳機就能直接感受無縫翻譯的體驗。Android 用戶更享有專屬的「聆聽模式」。只需將手機貼在耳邊,就像平常講電話一樣,就能直接聽取翻譯後的串流語音。針對企業用戶,Google Meet 這個月也會將這項功能整合進去,讓跨國會議的溝通變得更加輕鬆。開發人員同樣能透過 Live API 或 Google AI Studio 來打造專屬的多語系應用。
讓角色活起來:SCAIL-2 顛覆傳統動畫生成方式
對於影音創作者而言,SCAIL-2 開源專案絕對是一個不可錯過的焦點。傳統上,要讓靜態角色模仿影片中人物的動作,通常需要依賴骨架圖或是遮罩來當作中間參考。這聽起來很合理。但在複雜的場景下,骨架圖常常會出現判斷錯誤,甚至被角色本身的身型所侷限,導致最終生成的動畫顯得十分生硬。
SCAIL-2 採用了直接串聯的處理架構,完全跳過了這些繁瑣的中間步驟。它直接從輸入的影像中獲取所有需要的視覺資訊,讓動畫生成變得異常精準。開發團隊特別建立了一個包含六萬個動作配對的巨大資料庫。透過這個資料庫訓練出來的模型,不僅能完成單一角色的動作轉換,還能處理多角色互動,甚至能讓動物跟著影片做出擬真的動作。
目前這個專案的程式碼已經在 GitHub 上公開發布,並且能在 Hugging Face 平台上取得相關模型。這為動畫創作者提供了一個強大且靈活的全新工具。
視覺搜尋的延伸:OpenAI Responses API 支援圖片結果
最後來聊聊開發者們會感興趣的實用更新。大家都知道 OpenAI 的 API 功能相當完備。現在,OpenAI Responses API 的網路搜尋功能正式支援圖片搜尋結果了。
過去這個 API 僅能回傳文字形式的解答。坦白說,很多時候人們更需要視覺上的參考依據。現在加入了圖片支援,開發者就能輕鬆打造出更豐富的應用程式。舉例來說,當使用者想要尋找特定的旅遊景點、購買特定商品,或是單純需要設計靈感時,應用程式就能直接呈現相關圖片和來源連結。這不僅大幅提升了使用者體驗,也讓尋找視覺資料的過程變得更加直覺。
問與答
Q1:Claude Fable 5 和 Mythos 5 都是 Anthropic 推出的新模型,兩者有什麼主要的差異?
答: 這兩款模型的底層架構完全相同,主要的差異在於「安全防護機制的寬鬆程度」。
- Fable 5 是面向一般大眾的通用版本,為確保安全,它設有極嚴格的防護限制,如果偵測到涉及網路安全、生物或化學的敏感指令,會自動降級交由前一代的 Opus 4.8 來回應。
- Mythos 5 則是特別開放給政府、專屬的網路安全防禦團隊(如 Project Glasswing)以及特定的生物學研究人員使用。它移除了在資安與生物化學上的安全限制,讓專家能利用其強大的能力來防禦駭客攻擊或加速新藥物的開發。
Q2:文章提到 Claude Fable 5 擁有極強的視覺解析能力,有什麼具體的例子可以證明嗎?
答: 最有趣的例子是它遊玩《寶可夢 火紅版》的表現。過去的 Claude 模型在玩這款遊戲時,需要依賴非常複雜的輔助工具(提供遊戲狀態、地圖或導航輔助)才能進行。但是,Fable 5 只需要「純看遊戲畫面截圖」的視覺功能,就能夠從頭到尾自主通關,完全不需要額外的文字狀態輔助。
Q3:Gemini 3.5 Live Translate 解決了過去語音翻譯的什麼痛點?
答: 傳統的語音翻譯系統通常採用「回合制(turn-by-turn)」,也就是必須等一方把話說完,系統才會開始接收處理並給出翻譯,這常常導致對話中斷且氣氛尷尬。 Gemini 3.5 Live Translate 解決了這個問題,它採用了「連續串流處理」技術,當講者還在發言時,系統就會同步進行翻譯,而且還能保留講者原本的語氣、語調和說話節奏,讓支援超過 70 種語言的跨國對話變得非常自然流暢。
Q4:為什麼對動畫創作者來說,開源專案 SCAIL-2 是一個重大的技術突破?
答: 傳統上,要讓靜態角色模仿影片中的動作,必須高度依賴「骨架圖」或「遮罩」等中間參考特徵。但這種方式有很大的侷限性,比如骨架圖在複雜場景下容易誤判,且無法處理非人類(例如動物)的動作轉移。 SCAIL-2 的重大突破在於它採用了「端到端(End-to-End)」的架構,完全捨棄了骨架圖等中間步驟。它直接從輸入的影像中抓取所有視覺資訊,不僅能處理複雜的多角色互動動畫,甚至能輕鬆完成跨物種(如動物驅動)的角色動作替換。
Q5:OpenAI Responses API 最近更新了什麼對開發者實用的新功能?
答: OpenAI Responses API 裡的網路搜尋功能,現在正式支援回傳「圖片搜尋結果」了。 在此之前,該 API 的網路搜尋只能回傳純文字解答。這項更新讓開發者可以輕鬆打造出視覺資源更豐富的應用程式,當使用者想尋找特定商品、旅遊景點或是設計靈感時,應用程式就能直接顯示相關的視覺圖片與來源連結。



