news

AI 日報: 從 Sora 節日特效到 Google 地圖的視覺化革新

December 15, 2025
Updated Dec 15
2 min read

在這個人工智慧工具逐漸融入日常生活的時刻,科技巨頭們又拋出了一系列令人興奮的更新。這一次,重點不再只是冷冰冰的數據處理,而是更貼近人類感官的「視」與「聽」。從 Google 地圖與 Gemini 的深度整合,到 OpenAI 如何在短短一個月內打造出 Android 版 Sora,這些進展都預示著我們與數位世界的互動方式正在發生本質上的改變。

如果您厭倦了在不同應用程式之間切換,或者渴望更自然的語音交流,那麼這週的科技動態絕對值得關注。

Google 地圖與 Gemini 聯手:搜尋不再只是文字

想像一下,當您在規劃週末晚餐時,不再需要先搜尋餐廳名稱,然後跳轉到地圖看評價,接著再去 Instagram 找照片。Google 正在打破這些界線。從今天開始,Gemini 能夠以豐富的視覺格式提供在地搜尋結果

這意味著什麼?當您詢問 Gemini 關於某個地點的資訊時,它會直接從 Google Maps 提取真實世界的照片、星級評分以及詳細資訊,並以直觀的卡片形式呈現在您眼前。這不僅節省了時間,更讓資訊的獲取變得流暢且具備空間感。這正是 AI 助理該有的樣子:它不再只是一個文字聊天機器人,而是一個能看見真實世界的嚮導。

Google Search Live:讓對話像呼吸一樣自然

提到與 AI 對話,很多人可能會有過那種「稍微停頓、等待回應」的生硬體驗。Google 顯然想改變這一點。透過最新的 Gemini 原生音訊模型更新,Search Live 的對話體驗將變得前所未有的流暢。

這項更新的核心在於「表現力」。現在,當您開啟 Google App 的 Live 模式並提出問題時,AI 的回應不再是單調的機械音。它可以根據話題調整語速和語氣。試想一下,當您在學習地質學知識時,AI 能以沈穩、清晰的語調解說;而當您需要快速的 DIY 指導時,它的節奏則會變得明快俐落。這種細微的差別,正是讓科技產品產生「人性」的關鍵。這項功能預計在未來一週內推向美國的所有 Search Live 用戶。

Sora 的節日獻禮與背後的「極速開發」傳奇

隨著假期臨近,OpenAI 旗下的影片生成模型 Sora 推出了三種全新風格:手持攝影(Handheld)、復古風(Retro)以及充滿節慶氛圍的 Festive 風格。這些新風格讓創作者能更輕易地營造出特定的情感氛圍,現已在 Web、iOS 和 Android 平台上線。

然而,比起這些炫酷的濾鏡,更讓科技圈震驚的是 Sora Android 版本的開發故事。

打破布魯克斯定律:28 天的開發奇蹟

在軟體工程界有一條著名的「布魯克斯定律」:在專案後期增加人手,只會讓專案延後。但 OpenAI 的工程團隊似乎找到了破解之道。他們分享了如何利用 Codex 在短短 28 天內構建出 Sora Android App 的過程。

這並非單純依靠人力堆疊。事實上,他們維持了一個極其精簡的團隊,並將 Codex 視為一位「剛入職的資深工程師」。開發者不再是逐行寫程式碼,而是花更多時間在指導架構、審查 Codex 產出的程式碼,以及規劃系統設計。

關鍵就在這裡:人類負責制定架構、使用者體驗和最終品質把關,而 Codex 則負責繁重的編碼工作。透過這種「人機協作」模式,他們不僅在極短時間內完成了從原型到全球發布的壯舉,還保持了驚人的 99.9% 無崩潰率。這或許預示著未來軟體開發的標準流程:工程師將轉變為 AI 的指揮家,而非單純的演奏者。

Google 翻譯與語音模型的躍進

語言隔閡一直是人類溝通的最大障礙之一,而 Google 這次透過三個不同層面的更新,試圖更全面地消除這道牆。

從「字面翻譯」到「文化理解」

首先是翻譯品質的提升。過去機器翻譯最怕遇到諺語或俚語,例如英語中的 “stealing my thunder”(搶了我的風頭),舊版翻譯往往會給出令人困惑的字面解釋。現在,結合 Gemini 的能力,Google 翻譯能精準捕捉上下文含義,給出自然且道地的翻譯。這項更新目前已在美國和印度推出,支援英語與近 20 種語言(包含中文)的互譯。

耳機裡的即時口譯員(美國、印度優先體驗)

更令人興奮的是「耳機即時口譯」功能(Live speech-to-speech)。這項功能允許使用者戴上耳機,就能聽到流暢的即時翻譯,且 AI 能保留說話者的語氣和節奏,支援超過 70 種語言。不過請注意,這項功能目前處於 Beta 階段,首波僅開放給 美國、墨西哥和印度 的 Android 用戶使用。

台灣用戶福音:口說練習工具擴大支援

雖然即時口譯尚未登台,但 台灣用戶 迎來了另一個實用功能:口說練習工具(Practice)。這項功能原本僅在少數地區提供,現在正式擴展到台灣等近 20 個新國家。它能像外語家教一樣,提供對話情境讓您練習口說,並即時給予反饋,幫助使用者更有效地學習外語。

聲音更有戲:Gemini Audio 與 TTS 模型

除了翻譯,Google 在聲音生成上也下足了功夫。Gemini 2.5 Flash Native Audio 提升了語音代理(Voice Agents)的能力,讓其在處理複雜指令和多輪對話時更加聰明。它甚至能更準確地判斷何時該打斷對話或獲取即時資訊,這對於企業級的客服應用來說至關重要。

同時,針對開發者推出的 Gemini 2.5 文字轉語音 (TTS) 模型 也迎來了重大升級。新的模型在「語氣控制」上表現驚人。開發者可以要求 AI 用「興奮」、「耳語」或是「嚴肅」的口吻說話,甚至能精準控制說話的節奏。這對於有聲書、遊戲角色配音或是教育應用來說,無疑是一大福音。

讓圖片編輯更直覺:圈選與塗鴉

最後,Google 在其聊天機器人的網頁版和行動版中悄悄加入了一個實用的小功能。現在,當您上傳圖片後,點擊圖片可以開啟標記工具

操作非常直觀:您可以用不同顏色的筆在圖片上「圈選」或「塗鴉」,直接指示 Gemini 您想要修改的部分。不管是想把照片中的背景移除,還是想改變某個物件的顏色,這種「指哪改哪」的互動方式,遠比用文字費力描述座標或位置來得高效。

結語

從本週的這些更新中,我們可以清晰地看到一個趨勢:AI 正變得越來越「感性」。它開始懂得看地圖上的照片,懂得用適當的語氣說話,甚至懂得透過塗鴉來理解我們的意圖。科技不再只是冷冰冰的工具,它正努力學習如何用人類的方式與我們溝通。這一切的背後,無論是 Google 的模型迭代還是 OpenAI 的 Codex 開發流程,都展示了技術進步如何回歸到最根本的需求,使生活更便利。


常見問題解答 (FAQ)

Q1:Sora 的 Android App 真的是 AI 寫出來的嗎? 並不完全是,但 AI 扮演了極其重要的角色。OpenAI 的工程團隊使用 Codex 協助開發,估計約有 85% 的程式碼由 Codex 生成。人類工程師主要負責架構設計、邏輯審查和使用者體驗的把關。這種協作模式讓他們打破了傳統軟體開發的速度限制,僅用 28 天就完成了構建。

Q2:Google 翻譯的新功能台灣可以用嗎? 這取決於您指哪一項功能。

  • 口說練習工具 (Practice)台灣 包含在這次擴展名單中,您可以使用它來練習外語對話。
  • 耳機即時口譯 (Live speech-to-speech):目前首波僅在美國、墨西哥和印度推出,台灣尚未開放。
  • 進階文字語意翻譯:目前主要在美國和印度推出。

Q3:Gemini 在 Google 地圖上的搜尋結果有什麼不同? 傳統搜尋可能會給出一串連結或文字列表,而 Gemini 現在能將 Google 地圖的資料(如照片、評分、評論)直接整合成視覺化的卡片。這讓使用者在詢問地點建議時,能直接看到豐富的視覺資訊,而無需跳轉到地圖應用程式。

Q4:新的 Search Live 音訊功能有什麼特別之處? Google 的 Search Live 更新了 Gemini 原生音訊模型,使其對話更加流暢和富有表現力。它不再使用單一的語調,而是能根據對話內容調整語速和情感,例如在解釋複雜概念時放慢速度,或在輕鬆對話時保持輕快節奏,聽起來更像是在與真人交談。

分享至:
Featured Partners

© 2026 Communeify. All rights reserved.