AI 日報: AI 造世主登場？Project Genie 讓你創造無限世界，Grok 影片 API 強勢來襲

本週 AI 圈大事不斷，Google DeepMind 推出能創造無限互動世界的 Project Genie，讓使用者體驗如同造世主般的樂趣；xAI 則開放了強大的 Grok Imagine 影片生成 API，要在視覺生成領域佔有一席之地。另一方面，OpenAI 宣布將於二月停用 GPT-4o 等舊模型，全力轉向更具個性化的新一代系統，而 Google Maps 的導航功能現在也能用 Gemini 像朋友般聊著天走路了。

Google DeepMind Project Genie：每個人都能創造世界

想像一下，如果不只是玩遊戲，而是能隨手「畫」出一個能互動的世界，那會是什麼感覺？Google DeepMind 最近發布的 Project Genie 正是這樣一個令人興奮的實驗性計畫。這不單單是一個遊戲生成器，更是一個通用的「世界模型」。

這背後運作的核心是 Genie 3 引擎。與傳統那些靜態的 3D 場景不同，Genie 是即時生成的。這意味著當你在這個虛擬世界中移動或互動時，系統會即時預測並產生接下來的路徑和物理反應。這聽起來是不是有點科幻？透過這個 Project Genie 實驗性原型，美國的 Google AI Ultra 訂閱用戶現在可以親自嘗試創造、探索，甚至「混音」不同的世界。

它具備三大核心能力：

世界素描 (World Sketching)： 這就像是給你的想像力裝上了翅膀。你可以透過文字提示，或者上傳圖片來創建一個不斷擴展的環境。想要一個充滿飛龍的奇幻大陸，還是一個賽博龐克的未來都市？只需簡單描述，系統就會為你生成。更酷的是，搭配 Nano Banana Pro 功能，你還能在進入這個世界前，微調視角和細節。
世界探索 (World Exploration)： 這裡的世界不是死的背景板。當你操控角色移動時，Genie 會根據你的動作即時運算前方會發生什麼，彷彿路是在你腳下長出來的。
世界混音 (World Remixing)： 這是最有趣的部分。如果你看到別人創造的世界很有趣，你可以直接在這個基礎上進行「二創」，用新的提示詞去改變它的風格或規則，甚至在畫廊中尋找靈感。

如果你對這個技術感興趣，可以到 Google Labs 或是 DeepMind 的展示頁面看看更多範例。雖然目前的生成長度限制在 60 秒，且物理反應偶爾會不自然，但這確實展示了 AI 理解真實世界物理運作的一大步。

xAI Grok Imagine API：影片生成的強力挑戰者

在影片生成這條賽道上，競爭可說是越來越白熱化。xAI 正式推出了 Grok Imagine API，這是一套針對創意工作流程設計的強大工具。這不僅僅是為了好玩，它是為了讓開發者和企業能以更低的成本、更快的速度生成高品質影片。

從官方發布的消息來看，這個模型的野心不小。它在指令遵循能力和畫面一致性上都表現出色。這對於專業創作者來說至關重要，因為你不會希望影片裡的主角走著走著換了一張臉，或者背景突然崩壞。

這個 API 有幾個亮點值得注意：

電影級的動態理解： 它可以將靜態照片轉化為具有真實運鏡和物體互動的影片。
精細的編輯控制： 不只是生成，你還可以對影片進行「修圖」。比如移除畫面中不想要的物體，或是替換場景中的道具，同時保持光影的一致性。
靈活的格式支援： 支援橫式、直式等多種比例，滿足不同社群平台的需求。

根據第三方評測，Grok Imagine 在生成品質與延遲之間取得了不錯的平衡，對於想要整合影片生成功能的應用程式開發者來說，這無疑是一個極具吸引力的新選擇。

OpenAI 揮別舊愛：GPT-4o 與舊模型將走入歷史

科技的進步總伴隨著舊技術的淘汰。OpenAI 宣布將在 2026 年 2 月 13 日，正式從 ChatGPT 中停用 GPT-4o、GPT-4.1 及其 mini 版本。這雖然讓人有些感傷，畢竟 GPT-4o 曾陪伴許多人度過無數個腦力激盪的夜晚，但這也是為了集中資源發展更好的模型。

官方數據顯示，目前僅剩 0.1% 的用戶仍在使用 GPT-4o，絕大多數人都已經轉向了更強大的 GPT-5.2。OpenAI 發現，用戶其實更在意 AI 的「個性」與「創造力」，而不僅僅是冷冰冰的邏輯。因此，新一代的模型在對話風格上會更像一個成年人，減少那些令人尷尬的說教，並提供更多自定義語氣的選項。

這並不代表舊模型完全消失，API 用戶目前還不會受到影響。但對於 ChatGPT 的日常使用者來說，是時候擁抱反應更靈敏、性格更鮮明的新夥伴了。

Google Maps 與 Gemini：散步騎車也能有導遊隨行

你是否曾在走路看地圖時，還得手忙腳亂地打字搜尋？Google Maps 正在改變這種體驗。現在，Gemini 導航功能正式支援步行和騎行模式。

這意味著什麼？意思是你的地圖變成了一個能說話的在地嚮導。

對於步行者： 你可以隨口問：「Hey Google，我現在在哪個社區？」或者「這附近評價最高的餐廳是哪家？」Gemini 會直接根據地圖上的最新資訊回答你，不用你停下腳步低頭猛滑手機。
對於騎行者： 這更是一個安全功能。當你雙手緊握車把時，可以直接問：「還要多久才到？」甚至可以說：「傳簡訊給 Sarah 說我會晚 10 分鐘。」

這項功能正在全球 iOS 和 Android 裝置上陸續推出，只要是支援 Gemini 的地區都能使用。這讓導航不再只是冷冰冰的語音指令，而是一種更自然的互動體驗。

OpenAI 內部的秘密武器：自用數據分析 Agent

大家常好奇，像 OpenAI 這種擁有海量數據的公司，自己是怎麼處理數據的？他們最近揭露了內部的數據分析 Agent，這是一個專為自家工程師和科學家打造的工具。

試想一下，面對 600 PB 的數據和 7 萬個資料集，光是「找對表格」可能就要花上半天。這個內部 Agent 的作用，就是讓員工可以用自然語言提問，像是「紐約計程車哪一段路程的時間變異最大？」，然後 Agent 就會自動去寫 SQL 程式碼、跑圖表、甚至自我修正錯誤。

這不僅僅是一個查詢工具，它還具備「記憶」功能。如果它這次犯了錯被糾正，下次就會記住這個教訓。這展示了 AI 如何在企業內部大幅降低數據分析的門檻，讓非數據專家也能輕鬆挖掘洞察，或許這也是未來企業數據管理的縮影。

Qwen3-ASR：開源語音識別的新標竿

最後來看看開源社群的好消息。Qwen 團隊發布了 Qwen3-ASR 系列模型，這對於需要處理多語言語音識別的開發者來說是個大禮包。

這個系列包含了 1.7B 和 0.6B 兩個版本，支援高達 52 種語言和方言的識別。這可不是普通的識別，它連帶有口音的英文或是特定的中文方言都能處理得相當好。

全能型選手： 除了基本的語音轉文字，它還引入了 Qwen3-ForcedAligner，這是一個強制對齊模型，能提供極高精度的時間戳預測。
效能怪獸： 0.6B 的版本在保持準確度的同時，吞吐量驚人，非常適合需要即時處理大量音訊的場景。

對於那些不想依賴昂貴商業 API 的開發者來說，Qwen3-ASR 在 Hugging Face 上的開源，無疑提供了目前市面上最強大的免費替代方案之一。

常見問題 (FAQ)

Q：Project Genie 是遊戲嗎？我可以去哪裡玩？ A：Project Genie 目前是一個實驗性的研究原型，不完全算是傳統意義上的遊戲。它更像是一個創作工具。目前僅開放給美國地區的 Google AI Ultra 訂閱用戶透過 Google Labs 進行測試。

Q：為什麼 OpenAI 要停用 GPT-4o？ A：主要是因為新模型 GPT-5.2 的表現已經超越了舊模型，且絕大多數用戶（99.9%）都已經轉移。停用舊模型可以讓 OpenAI 將算力資源集中在優化新模型的個性化和創造力表現上。

Q：Grok Imagine API 與其他影片生成模型有什麼不同？ A：Grok Imagine 強調的是「指令遵循」和「影片編輯」能力。它不僅能生成影片，還能精準地移除或替換影片中的物體，這對於需要精細控制畫面的專業工作流來說非常有優勢。

Q：Qwen3-ASR 是免費的嗎？ A：是的，Qwen3-ASR 是開源模型，開發者可以下載權重並部署在自己的伺服器上使用，非常適合需要保護隱私或節省 API 費用的專案。

分享至:

Featured Partners

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

Recommended for You

A …

news

AI 日報: OpenAI GPT-5.4 輕量版發布，Google、微軟與開源模型最新動態一次看

今日 AI 焦點解析：GPT-5.4 輕量雙雄問世，解析微軟新戰略與隱藏資安陷阱大家有注意到嗎？最近科技界的新聞幾乎每天都在刷新大眾的認知。人工智慧的發展腳步從未停歇，各種新模型與新應用如雨後春筍般湧現。老實說，要跟上這些資訊確實有點吃力。今天這篇文章整理了幾項最具影響力的業界動態，帶領讀者仔細檢視這些改變未來的關鍵時刻。從 OpenAI 推出效能驚人的輕量級模型，到 Google 針對個人化體驗與通用人工智慧的全面佈局，再到隱藏在網頁字體中的駭客陷阱。每一項進展都牽動著未來的科技走向。讓我們馬上來看看今天的重點精華。輕巧卻力大無窮：GPT-5.4 mini 與 nano 震撼登場提到大型語言模型，許多人腦海中浮現的往往是運算成本高昂、反應稍微遲鈍的龐然大物。雖然體積龐大通常意味著知識淵博，但事實恰好相反，有時候小巧靈活的系統反而能發揮更大的價值。 OpenAI 剛剛正式宣佈GPT-5.4 mini 和 nano 登場。這兩款全新模型專為高流量與需要極低延遲的工作任務量身打造。GPT-5.4 mini 在寫程式、邏輯推理與多模態圖片理解上的表現非常驚人。它在多項專業評測中的成績，幾乎已經逼近了更大型的 GPT-5.4 模型。最棒的是什麼呢？它的運行速度提升了超過兩倍。開發者現在可以用極低的成本，讓這個模型處理複雜的程式碼除錯或是前端生成任務。另一個引起廣泛討論的是 GPT-5.4 nano。這是整個系列中最輕量、反應最敏捷的版本。對於那些只要求極致速度與成本控制的簡單任務，例如資料擷取、排序或是基本的客服回應，nano 絕對是首選。想像一下，一個大型企業可以讓 GPT-5.4 擔任發號施令的主管，並將繁雜的基礎工作分配給成千上萬個 mini 或 nano 智慧體同時處理。這種架構無疑會大幅提升整體運作效率。 Google 的雙重攻勢：量身打造的個人體驗與 AGI 終極評估接下來看看科技巨頭 Google 的最新動態。他們目前正採取雙管齊下的策略，一方面優化消費者的日常體驗，另一方面則積極探索人工智慧的終極目標。針對一般使用者，Google 正在大幅擴展其生態系中的客製化能力。根據最新公佈的 Bringing the power of Personal Intelligence to more people 計畫，系統將能夠把 Gmail、Google 相簿等應用程式串聯起來，提供專屬於使用者的精準解答。個人智慧功能目前已在美國推出，可用於搜尋中的 AI 模式，並且正在Gemini 應用程式和Chrome 瀏覽器中逐步推出免費用戶。這些連網體驗僅適用於個人 Google 帳戶，不適用於 Workspace 企業版、公司版或教育版使用者。另一方面，學術與研發領域也迎來了重大突破。Google DeepMind 發布 AGI 評估框架，這份報告提出了一個極具指標意義的認知分類系統。該框架涵蓋了感知、記憶、問題解決等十項關鍵認知能力。為了讓理論付諸實踐，Google 甚至與 Kaggle 聯合舉辦了一場獎金豐厚的黑客松，邀請全球頂尖好手共同設計評估機制。這代表著業界正在努力找出一把客觀的尺，用來衡量機器到底距離真正的「通用人工智慧」還有多遠。

Mar 18, 2026 Read →

A …

news

AI 日報: Nemotron 聯盟、Manus 桌面 AI 與 DLSS 5 介紹

老實說，每天看著科技圈的新消息不斷彈出，真的會讓人感到一陣目眩神迷。你知道嗎？就在大家還在適應各種新工具時，整個產業的遊戲規則又再度被改寫了。從開源基礎模型的跨國大結盟，到人工智慧直接接管個人電腦桌面，甚至是遊戲畫面的革命性突破，各項技術正以驚人的節奏互相交織。這裡整理了近期最具影響力的科技進展，帶領各位透徹了解這些將徹底改變日常工作與娛樂的新工具。開源力量大集結，Nemotron 聯盟重磅登場 NVIDIA 最近宣布成立 Nemotron 聯盟，這絕對是近期最引人注目的重頭戲。這是一個匯集了各大頂尖實驗室的全球合作計畫。眾人決定把各自的專業知識、運算資源和數據拿出來共享，共同推進開源基礎模型的發展。這個聯盟的誕生意義非凡。各大廠牌以往總是各自為政，現在卻選擇攜手合作。Mistral AI 順勢宣布成為創始成員，將自家擅長的模型架構與多模態能力貢獻出來。與此同時，Perplexity 同樣加入了這個陣營，其他還有Black Forest Labs、Cursor、LangChain、Reflection AI、Sarvam 和 Thinking Machines Lab，目標是把這套由 NVIDIA DGX 雲端訓練出來的全新模型，打造成所有人都能靈活運用的強大基礎。這意味著未來的技術發展將更加透明且普及，任何人都能藉此打造專屬的應用程式。那些讓你不用再做選擇的全能模型參與聯盟的同時，Mistral 的動作可沒停下來。他們剛推出了 Mistral Small 4，這款模型可以說是集大成之作。以往處理不同任務時，總得在推理、視覺分析或程式碼生成模型之間來回切換。現在這款新模型把 Magistral 的推理能力、Devstral 的代理寫碼功能，以及 Mistral Small 的指令處理能力（instruct）全部打包在一起，同時更原生支援了強大的多模態視覺分析。使用者可以透過全新的參數設定，隨時決定模型要給出輕量快速的回應，還是進行複雜的逐步推理。對於開發者來說，Hugging Face 上也已經準備好了 Mistral Small 4 的專屬合集，隨時可以拿來測試。不過，程式開發的瓶頸往往卡在人工代碼審查上。為了解決這個痛點，Mistral 同步推出了專為 Lean 4 設計的開源程式碼代理 Leanstral。這套工具能夠精準處理複雜的數學驗證與軟體規格測試。開發者現在只需要告訴 AI 想要什麼結果，Leanstral 就會負責生成並完美證明這些邏輯的正確性。想嘗鮮的人，可以直接前往 Hugging Face 下載Leanstral 的開源權重模型，或者透過他們提供的 labs-leanstral-2603 API 端點直接測試。當人工智慧直接接管個人裝置雲端工具固然方便，但許多人最核心的工作檔案依然躺在本地電腦裡。為了解決這個落差，Manus 推出了全新的桌面整合功能，直接讓 AI 代理走進使用者的本機環境。透過終端指令，Manus 能夠讀取、分析甚至編輯本地檔案。想像一下，花店老闆電腦裡塞滿了幾千張未分類的照片，只要下達一句「幫忙整理花店照片」，系統就會自動掃描內容並建立分類資料夾。這聽起來很神奇對吧？這時可能會有人好奇：讓 AI 隨意控制個人電腦，難道不會有安全疑慮嗎？其實系統設計了非常嚴格的授權機制。每一個終端指令都需要經過明確批准才能執行。使用者始終是發號施令的指揮官，而 AI 只是個乖巧的執行者。另一方面，手機端的競爭也進入了白熱化階段。Perplexity 宣布將他們最強大的 Computer 平台引入 Android 系統。這款工具簡直就是一個萬能的數位員工。它整合了超過 19 種頂尖模型，會根據任務自動分配工作。需要強大邏輯運算時召喚 Claude Opus 4.6，做複雜研究時派 Gemini 上場，甚至還能用 Veo 3.1 處理影片生成。它具備持久記憶功能，可以同時平行處理多項任務，幾乎不需要人類在一旁緊迫盯人。

Mar 17, 2026 Read →

A …

news

AI 日報: Claude 百萬上下文開放與限時雙倍用量！OpenAI 自動化上線、字節跳動 AI 影片爭議

最新 AI 動態解析：Claude 百萬上下文全面開放，OpenAI 推出自動化工作流每天都有新的工具與技術問世，人工智慧的發展步伐總是令人目不暇給。想要掌握最新的產業脈絡，只要抓住幾個關鍵重點就好。本篇文章整理了今日最重要的三則動態。Claude 全面開放百萬上下文窗口，更加碼贈送台灣時段專屬的雙倍用量。OpenAI 則針對開發者推出實用的 Automations 功能。另外，字節跳動的影片生成模型因好萊塢版權爭議被迫暫停全球發布計畫。 Claude 誠意升級：百萬上下文與離峰雙倍用量大放送重點來了，Anthropic 宣布 Claude Opus 4.6 與 Sonnet 4.6 的百萬上下文 (1M context) 功能已正式全面開放。一百萬個 token 到底是什麼概念？使用者可以直接把整個程式碼庫、成千上萬頁的合約，或是長時間運行的代理 (Agent) 完整追蹤紀錄全部塞進去。模型可以輕鬆讀完這些龐大的資料。最棒的是這項升級完全不需要額外付費。標準計價現在適用於整個一百萬上下文窗口。不管請求包含九千個還是九十萬個 token，每 token 的費率都一模一樣。媒體檔案的限制也大幅放寬。現在每個請求最多可以包含 600 張圖片或 PDF 頁面。處理龐雜文件的過程因此變得無比輕鬆。除了功能升級，Claude 還同步推出了非常實用的限時雙倍用量優惠。活動期間從 2026 年 3 月 13 日持續到 3 月 27 日。只要是在非尖峰時段使用，每五小時的用量限制就會自動翻倍。這裡特別幫台灣使用者換算一下時間。官方公告的非尖峰時段是美東時間早上八點到下午兩點之外的時間。換算成台灣時間，正好是每週一至週五的凌晨兩點到晚上八點（週末則全天適用）。老實說，這個時段幾乎涵蓋了亞洲地區正常的上班與作息時間，可以說是相當划算。大家可能會好奇，參加這個活動需要手動設定什麼嗎？其實什麼都不用做。只要帳號符合免費版、Pro 版、Max 版或 Team 版方案的資格，系統就會自動套用雙倍額度。企業版則不包含在這次的優惠範圍內。另外，有些人會擔心這額外贈送的用量是否會扣除每週的整體額度？答案是不會。額外的紅利用量完全獨立計算。等到 3 月 27 日活動結束後，所有用量限制就會恢復正常水準，完全不會對現有的帳單產生任何影響。減輕開發者負擔：OpenAI Automations 自動化流程上線開發者總是在尋找減少重複性勞動的解方。不可否認地，繁瑣的日常維護往往會消耗掉大量寫程式的精力。現在OpenAI Automations 已經正式上線 (GA)，剛好精準解決了這個痛點。這套自動化工具讓軟體工程師能將寶貴的時間花在更有價值的地方。透過這項新功能，開發團隊可以自訂許多執行細節。工程師能夠根據特定任務的需求，自由設定要使用的模型以及邏輯推理水平。這提供了極大的靈活性。系統甚至允許選擇讓這些自動化流程在獨立的工作樹 (worktree) 中單獨執行，或者直接套用到現有的分支 (branch) 裡。如果某個流程特別好用，還能透過範本 (templates) 功能將其儲存起來，方便日後在其他專案中重複使用。

Mar 16, 2026 Read →