AI日報｜Claude Fable 5 視覺突破、Gemini 3.5 即時語音翻譯、SCAIL-2 端到端動畫生成與 OpenAI 圖片搜尋總整理

發展總整理：Claude Fable

震撼登場與 Gemini 即時語音翻

一，莫過於 Anthropic 團隊正式推

無助。不過，Google 全新推出的

式碼已經在 GitHub 上公開發布

搜尋的延伸：OpenAI Respo

news

AI日報｜Claude Fable 5 視覺突破、Gemini 3.5 即時語音翻譯、SCAIL-2 端到端動畫生成與 OpenAI 圖片搜尋總整理

2026-06-10

最新 AI 發展總整理：Claude Fable 5 震撼登場與 Gemini 即時語音翻譯全面升級

科技圈的新鮮事總是接踵而來。坦白說，有時候光是消化這些新資訊就讓人頭昏眼花。不過，最近這幾天各大科技巨頭釋出的新技術，的確值得好好關注。這裡不單純只是探討文字生成模型的升級，連同語音翻譯、影像搜尋以及動畫製作，都有了突破性的進展。接下來將仔細梳理這些剛出爐的亮點，並探討它們如何實際應用於生活與工作之中。

遇見新世代的大腦：Claude Fable 5 與 Mythos 5 聯手出擊

這幾天最受矚目的消息之一，莫過於 Anthropic 團隊正式推出了 Claude Fable 5 與 Mythos 5。這兩款新模型被歸類為極高階的等級，整體能力大幅超越了先前的 Opus 系列。

Fable 5 主要是面向一般大眾開放的版本。它在軟體工程、知識工作、科學研究和視覺任務上的表現，都達到了目前的頂尖水準。舉個例子來說，Stripe 在先前的測試期間發現，Fable 5 能夠在短短一天內完成一項浩大的程式碼遷移工作，而這項工作原本需要整個工程團隊耗費整整兩個月才能做完。這聽起來有點不可思議對吧？但這確確實實發生了。此外，Fable 5 的視覺解析能力也極度敏銳，它不再需要繁雜的輔助工具，光靠觀看遊戲畫面就能獨自通關《寶可夢火紅版》。

許多人或許會問，Fable 5 和 Mythos 5 到底有什麼差別呢？這的確是個常見的疑惑。簡單來說，這兩者的底層架構完全相同，差別僅在於安全防護機制的寬鬆程度。Fable 5 為了維護一般大眾的使用安全，加入了極為嚴格的防護限制。相對地，Mythos 5 則是特別提供給 Project Glasswing 的網路安全專家，以及未來特定的生物學研究人員使用。這些專家需要較高的權限來防禦駭客攻擊，或是加速開發新藥物。

在定價方面，這兩款模型每百萬個輸入端元 (tokens) 收費 10 美元，輸出則是 50 美元。以目前的市場行情來看，這樣的定價策略算是相當實惠，有助於讓更多開發者取得頂尖的運算資源。

跨越語言隔閡：Gemini 3.5 Live Translate 讓對話更自然

跨越語言隔閡一直是一大挑戰，尤其出國旅遊或進行跨國會議時，語言不通總讓人感到有些無助。不過，Google 全新推出的 Gemini 3.5 Live Translate 語音模型似乎找到了極佳的解法。

這款新模型支援超過 70 種語言的即時語音對語音翻譯。過去的翻譯系統通常需要等待一方說完話，系統才會開始接收並處理。這種講者輪流發言的模式，常常導致對話中斷，氣氛也容易變得尷尬。Gemini 3.5 Live Translate 完全打破了這項限制，採用了連續的串流處理技術。也就是當講者還在發言時，系統就已經開始同步翻譯。最特別的是，它還能保留講者原本的語氣、語調和說話節奏。這讓整段對話聽起來非常流暢自然。

一般使用者可以在哪裡體驗這項功能呢？目前這項技術已經逐步推廣至各大平台。針對一般大眾，現在只要打開 Android 或 iOS 上的 Google 翻譯應用程式，接上耳機就能直接感受無縫翻譯的體驗。Android 用戶更享有專屬的「聆聽模式」。只需將手機貼在耳邊，就像平常講電話一樣，就能直接聽取翻譯後的串流語音。針對企業用戶，Google Meet 這個月也會將這項功能整合進去，讓跨國會議的溝通變得更加輕鬆。開發人員同樣能透過 Live API 或 Google AI Studio 來打造專屬的多語系應用。

讓角色活起來：SCAIL-2 顛覆傳統動畫生成方式

對於影音創作者而言，SCAIL-2 開源專案絕對是一個不可錯過的焦點。傳統上，要讓靜態角色模仿影片中人物的動作，通常需要依賴骨架圖或是遮罩來當作中間參考。這聽起來很合理。但在複雜的場景下，骨架圖常常會出現判斷錯誤，甚至被角色本身的身型所侷限，導致最終生成的動畫顯得十分生硬。

SCAIL-2 採用了直接串聯的處理架構，完全跳過了這些繁瑣的中間步驟。它直接從輸入的影像中獲取所有需要的視覺資訊，讓動畫生成變得異常精準。開發團隊特別建立了一個包含六萬個動作配對的巨大資料庫。透過這個資料庫訓練出來的模型，不僅能完成單一角色的動作轉換，還能處理多角色互動，甚至能讓動物跟著影片做出擬真的動作。

目前這個專案的程式碼已經在 GitHub 上公開發布，並且能在 Hugging Face 平台上取得相關模型。這為動畫創作者提供了一個強大且靈活的全新工具。

視覺搜尋的延伸：OpenAI Responses API 支援圖片結果

最後來聊聊開發者們會感興趣的實用更新。大家都知道 OpenAI 的 API 功能相當完備。現在，OpenAI Responses API 的網路搜尋功能正式支援圖片搜尋結果了。

過去這個 API 僅能回傳文字形式的解答。坦白說，很多時候人們更需要視覺上的參考依據。現在加入了圖片支援，開發者就能輕鬆打造出更豐富的應用程式。舉例來說，當使用者想要尋找特定的旅遊景點、購買特定商品，或是單純需要設計靈感時，應用程式就能直接呈現相關圖片和來源連結。這不僅大幅提升了使用者體驗，也讓尋找視覺資料的過程變得更加直覺。

問與答

Q1：Claude Fable 5 和 Mythos 5 都是 Anthropic 推出的新模型，兩者有什麼主要的差異？

答：這兩款模型的底層架構完全相同，主要的差異在於「安全防護機制的寬鬆程度」。

Fable 5 是面向一般大眾的通用版本，為確保安全，它設有極嚴格的防護限制，如果偵測到涉及網路安全、生物或化學的敏感指令，會自動降級交由前一代的 Opus 4.8 來回應。
Mythos 5 則是特別開放給政府、專屬的網路安全防禦團隊（如 Project Glasswing）以及特定的生物學研究人員使用。它移除了在資安與生物化學上的安全限制，讓專家能利用其強大的能力來防禦駭客攻擊或加速新藥物的開發。

Q2：文章提到 Claude Fable 5 擁有極強的視覺解析能力，有什麼具體的例子可以證明嗎？

答：最有趣的例子是它遊玩《寶可夢火紅版》的表現。過去的 Claude 模型在玩這款遊戲時，需要依賴非常複雜的輔助工具（提供遊戲狀態、地圖或導航輔助）才能進行。但是，Fable 5 只需要「純看遊戲畫面截圖」的視覺功能，就能夠從頭到尾自主通關，完全不需要額外的文字狀態輔助。

Q3：Gemini 3.5 Live Translate 解決了過去語音翻譯的什麼痛點？

答：傳統的語音翻譯系統通常採用「回合制（turn-by-turn）」，也就是必須等一方把話說完，系統才會開始接收處理並給出翻譯，這常常導致對話中斷且氣氛尷尬。 Gemini 3.5 Live Translate 解決了這個問題，它採用了「連續串流處理」技術，當講者還在發言時，系統就會同步進行翻譯，而且還能保留講者原本的語氣、語調和說話節奏，讓支援超過 70 種語言的跨國對話變得非常自然流暢。

Q4：為什麼對動畫創作者來說，開源專案 SCAIL-2 是一個重大的技術突破？

答：傳統上，要讓靜態角色模仿影片中的動作，必須高度依賴「骨架圖」或「遮罩」等中間參考特徵。但這種方式有很大的侷限性，比如骨架圖在複雜場景下容易誤判，且無法處理非人類（例如動物）的動作轉移。 SCAIL-2 的重大突破在於它採用了「端到端（End-to-End）」的架構，完全捨棄了骨架圖等中間步驟。它直接從輸入的影像中抓取所有視覺資訊，不僅能處理複雜的多角色互動動畫，甚至能輕鬆完成跨物種（如動物驅動）的角色動作替換。

Q5：OpenAI Responses API 最近更新了什麼對開發者實用的新功能？

答： OpenAI Responses API 裡的網路搜尋功能，現在正式支援回傳「圖片搜尋結果」了。在此之前，該 API 的網路搜尋只能回傳純文字解答。這項更新讓開發者可以輕鬆打造出視覺資源更豐富的應用程式，當使用者想尋找特定商品、旅遊景點或是設計靈感時，應用程式就能直接顯示相關的視覺圖片與來源連結。

分享至:

Featured Partners

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

SPONSORED

scribis.app

Scribis: 字幕編輯、語音轉錄文字、即時顯示轉錄文字。

Learn More

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

SPONSORED

scribis.app

Scribis: 字幕編輯、語音轉錄文字、即時顯示轉錄文字。

Learn More

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

Recommended for You

A …

news

AI日報｜xAI預告Grok 4.6與4.7登場、近200家矽谷企業聯名挺開源、GPT-5.6 Pro推翻數學猜想

AI 日報 | 2026-07-26 💡 此文章是自動產生，每天早上九點自動更新。模型發布/更新 Grok 4.6 與 4.7 — xAI / SpaceXAI 一言以蔽之：埃隆·馬斯克（Elon Musk）預告 Grok 4.6 與 4.7 兩款新旗艦模型將於未來四周內相繼釋出。核心亮點： Grok 4.6 預計於兩週內登場，參數規模達到 2T（前代 Grok 4.5 為 1.5T），推理效能有望超越 Kimi K3。 Grok 4.7 將緊接於 Grok 4.6 發布四周後推出，持續推動前沿大模型能力邊界。技術規格：閉源 API / 2T 參數規模 / 高階多模態推理傳送門：SPACEXAI 🔥: Grok 4.6 model is expected to land already in 2 weeks, according to Elon Musk. > The next SpaceXAI model is expected to be based on 2T parameters (compared to 1.5T on Grok 4.5) and is expected to surpass Kimi K3 in performance. > Grok 4.7 is set to be released in… https://t.co/GAYT0U1glA pic.twitter.com/jooXfSGf2V

Jul 26, 2026 Read →

A …

news

AI日報｜ChatGPT桌面端語音開放，FLUX 3同步生成影音，微軟發表MAI雙模型

AI日報｜ChatGPT桌面端語音開放，FLUX 3同步生成影音，微軟發表MAI雙模型今日重點語音助理大升級：OpenAI 把語音控制搬上桌面，Claude 則開始陪你用語音拆解複雜難題。 FLUX 3 多模態震撼登場：BFL 採用單一架構，同步生成高解析度影片、影像與原生音訊，打破影音生成極限。微軟發布 MAI 雙模型：MAI Image-2.5-Pro 終於搞定圖片裡的文字渲染，還能直接用白話文修圖。小模型發威：Ling-3.0-flash 與 KAT-Coder-V2.5-Dev 靠著混合專家（MoE）架構榨出驚人效能。工作流升級：Runway 推出幫你挑模型的「媒體路由器」，OpenAI Codex 終於支援跨資料夾協作。底層技術突破：PaddlePaddle 實現階層式平行文件解析，LLaDA2.2-flash 讓語言模型也能邊生成邊「修改」。技術名詞速覽 MoE（混合專家架構）：系統把模型拆成多個「專家」，每次生成只喚醒需要的少數參數，省算力又保證品質。階層式平行解碼（Hierarchical Parallel Decoding）：不再像以前那樣一個字一個字慢慢吐。主分支管全局排版，其他分支同時處理局部內容，解析長文件的速度直接翻倍。萊文斯坦編輯（Levenshtein Editing）：擴散語言模型的新機制。白話來說，模型在平行輸出的過程中，可以直接「插入」或「刪除」字元來抓蟲修正。重大新聞 1. 語音控制與個人健康數據的無縫結合用嘴巴寫程式、控制電腦，聽起來有點像早期的科幻片，但 OpenAI 剛把它搬進了 macOS 和 Windows 的桌面版。靠著 GPT-Live 的即時能力，你現在可以直接開口指揮背景的 Codex 幫忙處理專案。ChatGPT Voice is now in the desktop app. Control your computer and direct multiple agents running in ChatGPT Work or Codex, using just your voice. It's powered by GPT-Live, so it can speak, listen, and coordinate work in the app at the same time. Rolling out globally today… pic.twitter.com/ODZWKqecCf

Jul 24, 2026 Read →

A …

news

AI日報｜OpenAI 推出企業代理 Presence、微軟釋出輕量生圖 Mage-Flow、Cursor 上線智慧路由器

AI 快訊：OpenAI 推出企業代理 Presence、微軟釋出輕量生圖 Mage-Flow、Cursor 上線智慧路由器今日重點 OpenAI 推出企業級代理 Presence：將模型推理能力與嚴格的內部護欄綁定，試圖解決 AI 代理進入商業生產線的信任危機。微軟釋出 4B 輕量模型 Mage-Flow：捨棄傳統裁切法，以原生解析度訓練，用極低的硬體需求挑戰頂尖開源生圖系統。 Upstage 開源 250B 代理特化模型 Solar Open 2：專攻複雜工具調用與長文本處理，且只需兩張企業級 GPU 即可本地部署。科技巨頭撒幣支援基礎科學：Google 與 OpenAI 雙雙投入鉅資支援美國 Genesis 任務，Anthropic 則砸下兩億美元探討 AI 的社會與經濟衝擊。 Cursor 上線智慧路由器：自動在背景依據任務難度切換大中小型模型，幫開發團隊省下大筆 API 費用。為什麼你要在意過去一兩年，大家都在盯著哪家大廠能堆出參數量更暴力的語言模型。但最近風向變了。比起在跑分榜上稱霸，業界現在更關心這些「聰明的大腦」能不能真正在辦公室裡幹活。企業要的是能穩定執行 SOP 的系統，這正是近期專注於工作流程的 AI 代理（Agent）紛紛出籠的原因。與此同時，國家級的科學研究也開始大舉導入 AI 算力。這意味著技術落地已經跨過單純的「聊天對話」，進入解決真實世界複雜挑戰的深水區。看懂這波基礎設施與代理化趨勢，你才能掌握科技圈接下來的遊戲規則。技術名詞速覽 MoE（混合專家架構）：把大模型拆成多個專精不同領域的小專家。生成時只喚醒需要的那幾個，用極低運算成本換取大模型的推理品質。 NoPE（無位置編碼）：捨棄傳統的位置編碼，改用語境與線性注意力層的循環狀態來理解序列，這讓模型能處理超越訓練長度的超長文本。 Native-Resolution MMDiT（原生解析度多模態擴散變換器）：它能直接處理各種長寬比的原始圖像與文本，不用事先死板地裁切或補黑邊。重大新聞 1. OpenAI 讓企業不再苦惱：AI 代理 Presence 正式上線大家都知道 AI 代理潛力無窮，但真要讓它去改動公司資料庫或處理客戶帳單？沒幾家企業有這個膽量。OpenAI 新推出的 Presence 就是衝著這個「信任缺口」來的。

Jul 23, 2026 Read →

AI日報｜Claude Fable 5 視覺突破、Gemini 3.5 即時語音翻譯、SCAIL-2 端到端動畫生成與 OpenAI 圖片搜尋總整理

最新 AI 發展總整理：Claude Fable 5 震撼登場與 Gemini 即時語音翻譯全面升級

遇見新世代的大腦：Claude Fable 5 與 Mythos 5 聯手出擊

跨越語言隔閡：Gemini 3.5 Live Translate 讓對話更自然

讓角色活起來：SCAIL-2 顛覆傳統動畫生成方式

視覺搜尋的延伸：OpenAI Responses API 支援圖片結果

問與答

Q1：Claude Fable 5 和 Mythos 5 都是 Anthropic 推出的新模型，兩者有什麼主要的差異？

Q2：文章提到 Claude Fable 5 擁有極強的視覺解析能力，有什麼具體的例子可以證明嗎？

Q3：Gemini 3.5 Live Translate 解決了過去語音翻譯的什麼痛點？

Q4：為什麼對動畫創作者來說，開源專案 SCAIL-2 是一個重大的技術突破？

Q5：OpenAI Responses API 最近更新了什麼對開發者實用的新功能？

DMflow.chat

scribis.app

DMflow.chat

videoweaver.app

DMflow.chat

scribis.app

DMflow.chat

videoweaver.app

Recommended for You

AI日報｜xAI預告Grok 4.6與4.7登場、近200家矽谷企業聯名挺開源、GPT-5.6 Pro推翻數學猜想

AI日報｜ChatGPT桌面端語音開放，FLUX 3同步生成影音，微軟發表MAI雙模型

AI日報｜OpenAI 推出企業代理 Presence、微軟釋出輕量生圖 Mage-Flow、Cursor 上線智慧路由器

Leaving Website