OpenAI gpt-realtime 登場：讓 AI 語音對話告別延遲

OpenAI 發表最新語音模型 gpt-realtime 及 Realtime API 重大更新。體驗前所未有的低延遲、高擬真度和多模態互動，支援 SIP 通話、圖片輸入，並大幅降價 20%，為開發者與企業打造次世代語音助理開啟新篇章。

你是否也曾受夠了那些聽起來像機器人、反應慢半拍的 AI 語音助理？那種延遲感和僵硬的語調，總是在提醒你「這不是真人」。老實說，那樣的體驗距離流暢的「對話」還差得遠呢。

不過，這個時代可能要正式宣告結束了。

OpenAI 在 2025 年 8 月 28 日投下了一顆震撼彈，正式推出其至今最先進的語音對語音模型——gpt-realtime，並同步全面開放 Realtime API。這不僅僅是一次常規更新，更像是一次徹底的革命，旨在讓開發者和企業能夠打造出真正可靠、可用於實際生產環境的語音 AI 代理。

這意味著什麼？簡單來說，我們離電影《雲端情人》中那種自然、即時、富有情感的 AI 互動，又近了一大步。

不只是對話，而是「交談」：gpt-realtime 的核心突破

過去的語音 AI，大多遵循一個傳統流程：語音轉文字 (Speech-to-Text)，處理文字，再將文字轉回語音 (Text-to-Speech)。這個鏈條不僅冗長，還會在轉換過程中遺失許多說話時的細微情感和語氣。

gpt-realtime 徹底顛覆了這個模式。

它採用一個單一的端到端模型，直接處理和生成音訊。這就像從看著別人轉述故事，變成直接聽故事本人娓娓道來。這種架構帶來的好處顯而易見：

極低的延遲： 對話幾乎沒有延遲，反應就像真人一樣迅速。
保留語氣細節： 能夠捕捉並重現說話時的語氣、情感和節奏，讓聲音聽起來更自然、更具表現力。
全新的聲音： 此次更新還帶來了兩種專為 Realtime API 設計的全新聲音——Cedar 和 Marin，讓聲音選擇更多元。

它真的「聽懂了」：智慧與理解力的飛躍

一個好的對話夥伴，不只要說得好聽，更要聽得懂。gpt-realtime 在智慧和理解力方面展現了驚人的進步。

它現在能夠：

捕捉非語言線索： 像是對話中的笑聲，模型能理解這是情緒的表達，而不只是噪音。
適應語氣： 開發者可以下達更細膩的指令，例如要求模型以「活潑專業」或「溫和有同理心」的語氣說話。
無縫切換語言： 即使在一句話中夾雜不同語言，模型也能流暢應對。
精準識別複雜資訊： 在辨識電話號碼、車輛識別碼 (VIN) 等字母數字序列時，準確率大幅提升，甚至在西班牙語、中文、日語和法語等語言中也有出色表現。

數據會說話。在衡量推理能力的 Big Bench Audio 基準測試中，gpt-realtime 的準確率高達 82.8%，遠超前代模型的 65.6%。這證明它不僅是「學舌」，而是真正具備了更強的理解和推理能力。

指令精準執行，工具呼叫更聰明

對於開發者而言，最關心的莫過於模型是否「聽話」。gpt-realtime 在遵循指令方面進行了重點優化，即使是微小的指令也能被精準捕捉和執行。

更重要的是，函數呼叫 (Function Calling) 功能也變得更強大。一個能幹的語音助理，必須懂得在適當的時機呼叫正確的工具來解決問題。gpt-realtime 在這方面進行了三大改進：呼叫相關函數、在適當時機呼叫、以及使用正確的參數呼叫，整體準確率顯著提高。

最令人興奮的是 非同步函數呼叫 (asynchronous function calling) 的原生支援。這解決了一個長期以來的痛點：當 AI 需要時間查找資料時，對話不必再陷入尷尬的沉默。現在，模型可以在等待結果的同時，繼續與使用者流暢地對話，讓互動體驗不中斷。

讓開發更簡單：Realtime API 的殺手級新功能

講了這麼多模型的厲害之處，那開發者實際上能用到哪些新工具呢？這次 Realtime API 的更新帶來了幾個殺手級功能。

遠端 MCP 伺服器支援

這讓擴展語音代理的能力變得前所未有的簡單。開發者只需將 API 指向一個遠端 MCP 伺服器的 URL，就能自動處理工具呼叫，無需手動進行繁瑣的整合。想增加新功能？換個伺服器地址就行了。

圖片輸入：讓 AI 看見你所見

這是一個改變遊戲規則的功能。現在，使用者可以在語音或文字對話中加入圖片、照片或螢幕截圖。這讓 AI 的對話能夠基於真實的視覺資訊。

你可以問它：

「你看到了什麼？」
「幫我讀一下這張截圖裡的文字。」

系統會將圖片視為對話中的一張照片，而不是即時影像串流，這讓開發者可以完全控制模型「看見」什麼以及何時回應。

SIP 支援：直接連通電話網路

對講協議 (Session Initiation Protocol, SIP) 的支援，意味著你可以將 AI 語音代理直接連接到公共電話網路、企業交換機 (PBX) 或其他 SIP 端點。這為打造企業級的 AI 客服中心、自動應答系統等應用鋪平了道路。

可重複使用的提示 (Reusable Prompts)

開發者現在可以保存和重複使用由開發者訊息、工具、變數和範例組成的提示，大幅簡化開發流程，提高效率。

安全、隱私與更親民的價格

技術越強大，責任也越重大。OpenAI 強調 Realtime API 內建了多層安全保障機制，並會主動偵測違反內容政策的對話。同時，API 使用預設的語音，以防止惡意行為者冒充他人。對於歐洲用戶，該 API 完全支援 歐盟數據駐留 (EU Data Residency) 規定。

最後，也是大家最關心的——價格。好消息是，功能更強大的 gpt-realtime 降價了 20%。

音訊輸入： 每百萬 token 32 美元
音訊輸出： 每百萬 token 64 美元

此外，API 還增加了更精細的對話上下文控制功能，讓開發者可以智慧地設定 token 限制，從而顯著降低長時間對話的成本。

結論：語音互動的未來已來

gpt-realtime 和全新的 Realtime API 不僅僅是技術的演進，它們正在重新定義我們與 AI 互動的方式。從房地產導覽（正如 Zillow 正在探索的應用），到個人助理和互動式教育，一個更自然、更高效、甚至更有趣的語音 AI 時代已經到來。

對於開發者來說，現在無疑是探索和創新的最佳時機。親身體驗這個新模型的威力，開始打造屬於你的次世代語音應用，將不再是遙遠的夢想。

分享至:

Featured Partners

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

Recommended for You

A …

news

AI 日報：OpenAI 客戶破百萬、Gemini API 重大更新、UMG 與 Udio 聯手重塑 AI 音樂版圖

2025 年 11 月 6 日的 AI 領域風起雲湧。OpenAI 迎來百萬企業客戶的里程碑，Google 持續強化其 Gemini 生態系，而音樂產業的巨頭 UMG 與 AI 新創 Udio 的歷史性和解，更可能徹底改變 AI 生成內容的未來遊戲規則。本文將帶您快速掌握今日最值得關注的 AI 發展。 OpenAI 的新花招：ChatGPT 查詢可以「插隊」了你有沒有過這種經驗？向 ChatGPT 下了一個複雜的指令，看著它辛苦地跑了半天，才突然想到：「哎呀，有個重點忘了說！」結果只能眼睜睜看著它生成完不滿意的答案，然後重來一次。好消息是，這種令人扼腕的時刻可能要成為歷史了。 OpenAI 宣布為 ChatGPT 推出查詢暫停功能。現在，當你發現一個正在運行的查詢需要調整時，可以直接打斷它，加入新的背景資訊或修改需求，而不需要從頭開始。這功能聽起來簡單，但對於需要深度研究或使用像 GPT-5 Pro 這種強大模型的用戶來說，簡直是天大的福音。模型會根據你「插隊」的新指令即時調整回應方向，讓整個互動過程變得更加流暢且高效。你只需要在側邊欄點擊「更新」，就能輕鬆補充細節或澄清要求。 Google 不斷進化：Gemini API 結構化輸出更聽話了 Google 宣布強化 Gemini API 的結構化輸出（Structured Outputs）功能。這次更新擴大了對 OpenAPI 的支援，並且能更好地遵循開發者在 schema 中定義的屬性順序。這代表什麼？簡單來說，就是 Gemini 現在更能精準地按照你設定的「模板」來回覆。這對於資料擷取、自動填寫資料庫等任務至關重要。更棒的是，這也為複雜的多代理（multi-agent）系統鋪平了道路——一個代理的標準化輸出，可以直接變成下一個代理的標準化輸入，中間不再需要繁瑣的格式轉換，讓協作變得天衣無縫。 Gemini CLI 工具鏈更新，開發者生態系再擴張不只 API，Google 同樣在為開發者打造更便利的命令列工具。最新的 Gemini CLI v0.12.0 版本更新帶來了一系列令人興奮的功能。最引人注目的就是加入了三個新的合作夥伴擴充功能： Hugging Face：讓開發者可以直接在命令列中存取 Hugging Face Hub 的龐大資源。 Monday.com：可以用自然語言分析你的專案進度、更新任務看板。 Data Commons：能夠查詢龐大的公開數據集，讓你的 AI 回應有更紮實的數據支撐。此外，這次更新還推出了「智慧模型路由」功能。Gemini CLI 會自動判斷你的任務複雜度，簡單的查詢就交給輕巧的 Flash 模型，複雜的分析或創意任務則動用更強大的 Pro 模型。這樣不僅能確保最佳效果，還能聰明地節省你的 API 配額。當然，如果你想自己指定模型，也隨時可以手動切換。

Nov 6, 2025 Read →

2 …

news

2025-11-05 AI 日報-Anthropic 封鎖中資、Perplexity 槓上亞馬遜、Google 發表太空 AI 計畫

今日 AI 領域風波不斷。Anthropic 因應地緣政治壓力，開始封鎖具中資背景的企業使用其模型，直接衝擊位元組跳動旗下平台。同時，新創公司 Perplexity 公開指控亞馬遜利用法律手段打壓其 AI 助理。技術方面，Google 發表了名為「Suncatcher」的太空 AI 運算計畫，展現了將機器學習推向新邊界的野心。 1. 地緣政治影響浮現：TRAE 停止提供 Claude 模型由於其母公司 Anthropic 的新政策，AI 服務平台 TRAE 已停止提供 Claude 模型。此舉背後反映了日益緊張的地緣政治局勢與科技保護主義的抬頭。背後原因：地緣政治與技術保護主義這次服務中斷的直接導火線是 Anthropic 於 2025 年 9 月 5 日宣布的一項嚴格封鎖政策。該政策明確指出，任何由中國公司直接或間接持股超過 50% 的企業，不論其註冊地點位於何處，都將被禁止使用 Claude 系列 AI 服務。 TRAE 平台雖然由位元組跳動位於新加坡的子公司 SPRING 負責營運，但由於其顯著的中資背景，依然被列入了這次的封鎖名單。業界分析師認為，Anthropic 的決策主要有兩個層面的考量。首先是回應來自美國的地緣政治壓力，避免其先進技術流向被視為競爭對手的國家。其次，此舉也是一種技術保護策略，旨在防止中國公司利用「模型蒸餾」（Model Distillation）技術——也就是以 Claude 作為強大的「教師模型」，來訓練出性能相近但成本更低的自有 AI 模型，從而削弱 Anthropic 的市場競爭力。 2. OpenAI Sora App 開放更多 Android 地區下載 OpenAI 宣布，其影片生成應用程式 Sora 的 Android 版本現在已在更多國家和地區上架，包括：加拿大日本韓國台灣泰國美國越南使用者可以前往 Google Play 商店下載體驗。

Nov 5, 2025 Read →

2 …

news

2025-11-04 AI日報：科技巨頭的策略棋局與AI倫理的紅線

探索今日AI要聞：Google Gemma模型引發爭議，OpenAI更新使用政策禁止專業建議，以及AWS與OpenAI結盟背後，科技巨頭間錯綜複雜的合作與投資關係。一文看懂AI領域的最新動態與未來走向。人工智慧的世界，每一天都像在上演一部快節奏的科幻電影。今天的新聞尤其精彩，我們不僅看到了技術的邊界在哪裡被挑戰，也看到了企業如何為這股強大的力量劃下紅線。從Google模型的公關危機，到OpenAI的政策緊縮，再到科技巨頭之間令人眼花撩亂的結盟與投資，讓我們一起來看看今天的AI世界發生了哪些大事。 Google Gemma 模型惹議：AI的「幻覺」還是「誹謗」？事情是這樣的，Google專為開發者和研究社群打造的開放模型Gemma，最近惹上了大麻煩。美國參議員瑪爾莎・布萊克本（Marsha Blackburn）公開指出，Gemma模型捏造了關於她的不實新聞。她強調，這已經不是無傷大雅的「AI幻覺」，而是赤裸裸的誹謗。這起事件迅速引爆了關於AI生成內容真實性與責任歸屬的激烈討論。面對爭議，Google迅速做出回應。他們在一則聲明中澄清，Gemma從來就不是一款面向一般消費者的事實查詢工具，它的初衷是提供給開發者進行研究和創新的。老實說，這個解釋完全合理。就像你不會拿賽車的引擎去裝在家用轎車上一樣，把專為開發設計的模型當成維基百科來用，本來就很容易出問題。為了避免更多誤解，Google已經將Gemma從面向開發者的AI Studio工具中下架，防止非專業用戶誤用。不過，開發者依然可以透過API繼續使用Gemma模型。這起事件像一記警鐘，提醒著我們：AI的強大能力背後，是需要被精準定義和限制的使用場景。當AI的「創作」可能對現實世界造成傷害時，那條界線究竟該由誰來劃定？ OpenAI劃清界線！ChatGPT新政策禁止提供專業建議談到劃定界線，AI領域的領頭羊OpenAI最近也採取了重大行動。根據其最新的使用政策，從2025年10月29日起，OpenAI明確禁止旗下模型（包括大家熟知的ChatGPT）提供專業的醫療、法律或財務建議。這項新規範的背後，是OpenAI為了規避監理風險、降低誤導用戶可能性的深思熟慮。畢竟，在這些高風險領域，一個錯誤的建議可能導致無法挽回的後果。具體來說，新政策禁止的行為包括：醫療領域：解讀X光片、CT掃描等醫學影像，或提供診斷輔助。法律領域：起草具有法律效力的合約，或對法律文件進行解釋。財務領域：提供個人化的投資組合建議、稅務規劃或任何需要執照的理財建議。這是否意味著AI無法再成為我們的得力助手了？當然不是。這更像是一種成熟的表現——認知到工具的極限，並負責任地引導用戶。你可以繼續用它來了解健康知識、學習法律概念或研究市場趨勢，但當你需要的是一份專業且個人化的診斷書、法律意見書或投資策略時，你還是得去找真正的人類專家。 AI界的「權力遊戲」：AWS與OpenAI結盟，揭示巨頭間的投資迷陣在AI的倫理與規範被重新定義的同時，商業戰場上的合縱連橫也從未停歇。今天最重磅的商業新聞莫過於：Amazon Web Services (AWS) 與 OpenAI 宣布達成一項多年的戰略合作夥伴關係。這意味著，OpenAI將能夠利用AWS世界級的雲端基礎設施，來運行其日益龐大的AI模型訓練與運算任務。但如果你以為這只是一樁單純的合作，那可就太小看科技巨頭們的棋局了。這項合作只是冰山一角，底下是一張錯綜複雜的投資網絡，幾乎把所有頂級玩家都圈了進來：微軟重金投資了 OpenAI。 OpenAI 的運算離不開 NVIDIA 的GPU晶片。 NVIDIA 回過頭來投資了雲端服務商甲骨文 (Oracle)。甲骨文 (Oracle) 也投資了 OpenAI。現在，OpenAI 又與亞馬遜 (Amazon) 的AWS深度結盟。看明白了嗎？這已經不是單純的「誰投資誰」的線性關係，而是一個互相依賴、互相制衡，甚至有點像「俄羅斯套娃」的生態系統。每一家公司都在賭AI的未來，但沒有一家公司能獨自吞下這塊大餅。他們需要彼此的技術、資金和基礎設施，共同推動這場技術革命，同時也確保自己在這場權力遊戲中佔據有利位置。今天的AI世界，既有對技術倫理的深刻反思，也有商業戰場上的風起雲湧。這一切都預示著，AI正在從一個狂野生長的探索期，步入一個更加成熟、更講求規則與策略的新階段。而我們，正身處這場變革的中心。

Nov 4, 2025 Read →