OpenAI 發表最新語音模型 gpt-realtime 及 Realtime API 重大更新。體驗前所未有的低延遲、高擬真度和多模態互動,支援 SIP 通話、圖片輸入,並大幅降價 20%,為開發者與企業打造次世代語音助理開啟新篇章。
你是否也曾受夠了那些聽起來像機器人、反應慢半拍的 AI 語音助理?那種延遲感和僵硬的語調,總是在提醒你「這不是真人」。老實說,那樣的體驗距離流暢的「對話」還差得遠呢。
不過,這個時代可能要正式宣告結束了。
OpenAI 在 2025 年 8 月 28 日投下了一顆震撼彈,正式推出其至今最先進的語音對語音模型——gpt-realtime,並同步全面開放 Realtime API。這不僅僅是一次常規更新,更像是一次徹底的革命,旨在讓開發者和企業能夠打造出真正可靠、可用於實際生產環境的語音 AI 代理。
這意味著什麼?簡單來說,我們離電影《雲端情人》中那種自然、即時、富有情感的 AI 互動,又近了一大步。
不只是對話,而是「交談」:gpt-realtime 的核心突破
過去的語音 AI,大多遵循一個傳統流程:語音轉文字 (Speech-to-Text),處理文字,再將文字轉回語音 (Text-to-Speech)。這個鏈條不僅冗長,還會在轉換過程中遺失許多說話時的細微情感和語氣。
gpt-realtime 徹底顛覆了這個模式。
它採用一個單一的端到端模型,直接處理和生成音訊。這就像從看著別人轉述故事,變成直接聽故事本人娓娓道來。這種架構帶來的好處顯而易見:
- 極低的延遲: 對話幾乎沒有延遲,反應就像真人一樣迅速。
- 保留語氣細節: 能夠捕捉並重現說話時的語氣、情感和節奏,讓聲音聽起來更自然、更具表現力。
- 全新的聲音: 此次更新還帶來了兩種專為 Realtime API 設計的全新聲音——Cedar 和 Marin,讓聲音選擇更多元。
它真的「聽懂了」:智慧與理解力的飛躍
一個好的對話夥伴,不只要說得好聽,更要聽得懂。gpt-realtime 在智慧和理解力方面展現了驚人的進步。
它現在能夠:
- 捕捉非語言線索: 像是對話中的笑聲,模型能理解這是情緒的表達,而不只是噪音。
- 適應語氣: 開發者可以下達更細膩的指令,例如要求模型以「活潑專業」或「溫和有同理心」的語氣說話。
- 無縫切換語言: 即使在一句話中夾雜不同語言,模型也能流暢應對。
- 精準識別複雜資訊: 在辨識電話號碼、車輛識別碼 (VIN) 等字母數字序列時,準確率大幅提升,甚至在西班牙語、中文、日語和法語等語言中也有出色表現。
數據會說話。在衡量推理能力的 Big Bench Audio 基準測試中,gpt-realtime 的準確率高達 82.8%,遠超前代模型的 65.6%。這證明它不僅是「學舌」,而是真正具備了更強的理解和推理能力。
指令精準執行,工具呼叫更聰明
對於開發者而言,最關心的莫過於模型是否「聽話」。gpt-realtime 在遵循指令方面進行了重點優化,即使是微小的指令也能被精準捕捉和執行。
更重要的是,函數呼叫 (Function Calling) 功能也變得更強大。一個能幹的語音助理,必須懂得在適當的時機呼叫正確的工具來解決問題。gpt-realtime 在這方面進行了三大改進:呼叫相關函數、在適當時機呼叫、以及使用正確的參數呼叫,整體準確率顯著提高。
最令人興奮的是 非同步函數呼叫 (asynchronous function calling) 的原生支援。這解決了一個長期以來的痛點:當 AI 需要時間查找資料時,對話不必再陷入尷尬的沉默。現在,模型可以在等待結果的同時,繼續與使用者流暢地對話,讓互動體驗不中斷。
讓開發更簡單:Realtime API 的殺手級新功能
講了這麼多模型的厲害之處,那開發者實際上能用到哪些新工具呢?這次 Realtime API 的更新帶來了幾個殺手級功能。
遠端 MCP 伺服器支援
這讓擴展語音代理的能力變得前所未有的簡單。開發者只需將 API 指向一個遠端 MCP 伺服器的 URL,就能自動處理工具呼叫,無需手動進行繁瑣的整合。想增加新功能?換個伺服器地址就行了。
圖片輸入:讓 AI 看見你所見
這是一個改變遊戲規則的功能。現在,使用者可以在語音或文字對話中加入圖片、照片或螢幕截圖。這讓 AI 的對話能夠基於真實的視覺資訊。
你可以問它:
- 「你看到了什麼?」
- 「幫我讀一下這張截圖裡的文字。」
系統會將圖片視為對話中的一張照片,而不是即時影像串流,這讓開發者可以完全控制模型「看見」什麼以及何時回應。
SIP 支援:直接連通電話網路
對講協議 (Session Initiation Protocol, SIP) 的支援,意味著你可以將 AI 語音代理直接連接到公共電話網路、企業交換機 (PBX) 或其他 SIP 端點。這為打造企業級的 AI 客服中心、自動應答系統等應用鋪平了道路。
可重複使用的提示 (Reusable Prompts)
開發者現在可以保存和重複使用由開發者訊息、工具、變數和範例組成的提示,大幅簡化開發流程,提高效率。
安全、隱私與更親民的價格
技術越強大,責任也越重大。OpenAI 強調 Realtime API 內建了多層安全保障機制,並會主動偵測違反內容政策的對話。同時,API 使用預設的語音,以防止惡意行為者冒充他人。對於歐洲用戶,該 API 完全支援 歐盟數據駐留 (EU Data Residency) 規定。
最後,也是大家最關心的——價格。 好消息是,功能更強大的 gpt-realtime 降價了 20%。
- 音訊輸入: 每百萬 token 32 美元
- 音訊輸出: 每百萬 token 64 美元
此外,API 還增加了更精細的對話上下文控制功能,讓開發者可以智慧地設定 token 限制,從而顯著降低長時間對話的成本。
結論:語音互動的未來已來
gpt-realtime 和全新的 Realtime API 不僅僅是技術的演進,它們正在重新定義我們與 AI 互動的方式。從房地產導覽(正如 Zillow 正在探索的應用),到個人助理和互動式教育,一個更自然、更高效、甚至更有趣的語音 AI 時代已經到來。
對於開發者來說,現在無疑是探索和創新的最佳時機。親身體驗這個新模型的威力,開始打造屬於你的次世代語音應用,將不再是遙遠的夢想。


