news

AI 日報: AI 造世主登場?Project Genie 讓你創造無限世界,Grok 影片 API 強勢來襲

January 30, 2026
Updated Jan 30
2 min read

本週 AI 圈大事不斷,Google DeepMind 推出能創造無限互動世界的 Project Genie,讓使用者體驗如同造世主般的樂趣;xAI 則開放了強大的 Grok Imagine 影片生成 API,要在視覺生成領域佔有一席之地。另一方面,OpenAI 宣布將於二月停用 GPT-4o 等舊模型,全力轉向更具個性化的新一代系統,而 Google Maps 的導航功能現在也能用 Gemini 像朋友般聊著天走路了。


Google DeepMind Project Genie:每個人都能創造世界

想像一下,如果不只是玩遊戲,而是能隨手「畫」出一個能互動的世界,那會是什麼感覺?Google DeepMind 最近發布的 Project Genie 正是這樣一個令人興奮的實驗性計畫。這不單單是一個遊戲生成器,更是一個通用的「世界模型」。

這背後運作的核心是 Genie 3 引擎。與傳統那些靜態的 3D 場景不同,Genie 是即時生成的。這意味著當你在這個虛擬世界中移動或互動時,系統會即時預測並產生接下來的路徑和物理反應。這聽起來是不是有點科幻?透過這個 Project Genie 實驗性原型,美國的 Google AI Ultra 訂閱用戶現在可以親自嘗試創造、探索,甚至「混音」不同的世界。

它具備三大核心能力:

  1. 世界素描 (World Sketching): 這就像是給你的想像力裝上了翅膀。你可以透過文字提示,或者上傳圖片來創建一個不斷擴展的環境。想要一個充滿飛龍的奇幻大陸,還是一個賽博龐克的未來都市?只需簡單描述,系統就會為你生成。更酷的是,搭配 Nano Banana Pro 功能,你還能在進入這個世界前,微調視角和細節。
  2. 世界探索 (World Exploration): 這裡的世界不是死的背景板。當你操控角色移動時,Genie 會根據你的動作即時運算前方會發生什麼,彷彿路是在你腳下長出來的。
  3. 世界混音 (World Remixing): 這是最有趣的部分。如果你看到別人創造的世界很有趣,你可以直接在這個基礎上進行「二創」,用新的提示詞去改變它的風格或規則,甚至在畫廊中尋找靈感。

如果你對這個技術感興趣,可以到 Google Labs 或是 DeepMind 的展示頁面 看看更多範例。雖然目前的生成長度限制在 60 秒,且物理反應偶爾會不自然,但這確實展示了 AI 理解真實世界物理運作的一大步。

xAI Grok Imagine API:影片生成的強力挑戰者

在影片生成這條賽道上,競爭可說是越來越白熱化。xAI 正式推出了 Grok Imagine API,這是一套針對創意工作流程設計的強大工具。這不僅僅是為了好玩,它是為了讓開發者和企業能以更低的成本、更快的速度生成高品質影片。

官方發布的消息 來看,這個模型的野心不小。它在指令遵循能力和畫面一致性上都表現出色。這對於專業創作者來說至關重要,因為你不會希望影片裡的主角走著走著換了一張臉,或者背景突然崩壞。

這個 API 有幾個亮點值得注意:

  • 電影級的動態理解: 它可以將靜態照片轉化為具有真實運鏡和物體互動的影片。
  • 精細的編輯控制: 不只是生成,你還可以對影片進行「修圖」。比如移除畫面中不想要的物體,或是替換場景中的道具,同時保持光影的一致性。
  • 靈活的格式支援: 支援橫式、直式等多種比例,滿足不同社群平台的需求。

根據第三方評測,Grok Imagine 在生成品質與延遲之間取得了不錯的平衡,對於想要整合影片生成功能的應用程式開發者來說,這無疑是一個極具吸引力的新選擇。

OpenAI 揮別舊愛:GPT-4o 與舊模型將走入歷史

科技的進步總伴隨著舊技術的淘汰。OpenAI 宣布將在 2026 年 2 月 13 日,正式從 ChatGPT 中 停用 GPT-4o、GPT-4.1 及其 mini 版本。這雖然讓人有些感傷,畢竟 GPT-4o 曾陪伴許多人度過無數個腦力激盪的夜晚,但這也是為了集中資源發展更好的模型。

官方數據顯示,目前僅剩 0.1% 的用戶仍在使用 GPT-4o,絕大多數人都已經轉向了更強大的 GPT-5.2。OpenAI 發現,用戶其實更在意 AI 的「個性」與「創造力」,而不僅僅是冷冰冰的邏輯。因此,新一代的模型在對話風格上會更像一個成年人,減少那些令人尷尬的說教,並提供更多自定義語氣的選項。

這並不代表舊模型完全消失,API 用戶目前還不會受到影響。但對於 ChatGPT 的日常使用者來說,是時候擁抱反應更靈敏、性格更鮮明的新夥伴了。

Google Maps 與 Gemini:散步騎車也能有導遊隨行

你是否曾在走路看地圖時,還得手忙腳亂地打字搜尋?Google Maps 正在改變這種體驗。現在,Gemini 導航功能 正式支援步行和騎行模式。

這意味著什麼?意思是你的地圖變成了一個能說話的在地嚮導。

  • 對於步行者: 你可以隨口問:「Hey Google,我現在在哪個社區?」或者「這附近評價最高的餐廳是哪家?」Gemini 會直接根據地圖上的最新資訊回答你,不用你停下腳步低頭猛滑手機。
  • 對於騎行者: 這更是一個安全功能。當你雙手緊握車把時,可以直接問:「還要多久才到?」甚至可以說:「傳簡訊給 Sarah 說我會晚 10 分鐘。」

這項功能正在全球 iOS 和 Android 裝置上陸續推出,只要是支援 Gemini 的地區都能使用。這讓導航不再只是冷冰冰的語音指令,而是一種更自然的互動體驗。

OpenAI 內部的秘密武器:自用數據分析 Agent

大家常好奇,像 OpenAI 這種擁有海量數據的公司,自己是怎麼處理數據的?他們最近揭露了 內部的數據分析 Agent,這是一個專為自家工程師和科學家打造的工具。

試想一下,面對 600 PB 的數據和 7 萬個資料集,光是「找對表格」可能就要花上半天。這個內部 Agent 的作用,就是讓員工可以用自然語言提問,像是「紐約計程車哪一段路程的時間變異最大?」,然後 Agent 就會自動去寫 SQL 程式碼、跑圖表、甚至自我修正錯誤。

這不僅僅是一個查詢工具,它還具備「記憶」功能。如果它這次犯了錯被糾正,下次就會記住這個教訓。這展示了 AI 如何在企業內部大幅降低數據分析的門檻,讓非數據專家也能輕鬆挖掘洞察,或許這也是未來企業數據管理的縮影。

Qwen3-ASR:開源語音識別的新標竿

最後來看看開源社群的好消息。Qwen 團隊發布了 Qwen3-ASR 系列模型,這對於需要處理多語言語音識別的開發者來說是個大禮包。

這個系列包含了 1.7B 和 0.6B 兩個版本,支援高達 52 種語言和方言的識別。這可不是普通的識別,它連帶有口音的英文或是特定的中文方言都能處理得相當好。

  • 全能型選手: 除了基本的語音轉文字,它還引入了 Qwen3-ForcedAligner,這是一個強制對齊模型,能提供極高精度的時間戳預測。
  • 效能怪獸: 0.6B 的版本在保持準確度的同時,吞吐量驚人,非常適合需要即時處理大量音訊的場景。

對於那些不想依賴昂貴商業 API 的開發者來說,Qwen3-ASR 在 Hugging Face 上的開源,無疑提供了目前市面上最強大的免費替代方案之一。


常見問題 (FAQ)

Q:Project Genie 是遊戲嗎?我可以去哪裡玩? A:Project Genie 目前是一個實驗性的研究原型,不完全算是傳統意義上的遊戲。它更像是一個創作工具。目前僅開放給美國地區的 Google AI Ultra 訂閱用戶透過 Google Labs 進行測試。

Q:為什麼 OpenAI 要停用 GPT-4o? A:主要是因為新模型 GPT-5.2 的表現已經超越了舊模型,且絕大多數用戶(99.9%)都已經轉移。停用舊模型可以讓 OpenAI 將算力資源集中在優化新模型的個性化和創造力表現上。

Q:Grok Imagine API 與其他影片生成模型有什麼不同? A:Grok Imagine 強調的是「指令遵循」和「影片編輯」能力。它不僅能生成影片,還能精準地移除或替換影片中的物體,這對於需要精細控制畫面的專業工作流來說非常有優勢。

Q:Qwen3-ASR 是免費的嗎? A:是的,Qwen3-ASR 是開源模型,開發者可以下載權重並部署在自己的伺服器上使用,非常適合需要保護隱私或節省 API 費用的專案。

分享至:
Featured Partners

© 2026 Communeify. All rights reserved.