OpenAI推出四項重大API更新:提升AI應用效能和成本效益

OpenAI於10月1日發布了四項重要的API新功能,這些更新旨在提升開發者構建AI應用的效能、靈活性和成本效益。本文將深入介紹這四項新功能:模型蒸餾(Model Distillation)、提示詞快取(Prompt Caching)、視覺微調(Vision Fine-tuning)以及即時API(Realtime API)。

模型蒸餾(Model Distillation in the API):讓小模型也能發揮大模型的威力

模型蒸餾是一種將大型模型的知識轉移到較小模型的技術,可以在保持性能的同時大幅降低成本。OpenAI新推出的模型蒸餾套件包含三個主要部分:

  1. 儲存完成(Stored Completions): 開發者可以輕鬆捕獲和存儲由GPT-4o或o1-preview等模型生成的輸入-輸出對,用於建立蒸餾數據集。

  2. 評估(Evals): 開發者可以在OpenAI平台上創建和運行自定義評估,以衡量模型在特定任務上的表現。

  3. 微調(Fine-tuning): 上述兩個功能與現有的微調功能完全整合,開發者可以使用Stored Completions創建的數據集進行微調,並使用Evals評估微調後的模型表現。

使用模型蒸餾,開發者可以將GPT-4o等大型模型的能力轉移到如GPT-4o mini等更具成本效益的小型模型中,從而在特定任務上實現接近大模型的性能,但成本大幅降低。

提示詞快取(Prompt Caching in the API):自動優化重複輸入,節省成本提高效率

提示詞快取功能針對開發者在構建AI應用時經常使用相同上下文的情況而設計。它可以自動重用最近看到的輸入令牌,為開發者帶來50%的折扣和更快的提示處理時間。

主要特點:

  • 適用於最新版本的GPT-4o、GPT-4o mini、o1-preview和o1-mini,以及這些模型的微調版本
  • 對超過1,024個令牌的提示自動應用快取
  • 快取通常在5-10分鐘不活動後清除,最長保留1小時

提示詞快取的價格優勢:

模型 未快取輸入令牌 快取輸入令牌 輸出令牌
GPT-4o $2.50 $1.25 $10.00
GPT-4o mini $0.15 $0.075 $0.60
o1-preview $15.00 $7.50 $60.00
o1 mini $3.00 $1.50 $12.00

開發者可以通過API響應中的cached_tokens值監控快取使用情況。這項功能不需要對API集成進行任何更改,就可以自動應用折扣,為開發者提供了一種平衡性能、成本和延遲的有效工具。

視覺微調(Introducing vision to the fine-tuning API):增強AI的圖像理解能力

OpenAI現在允許開發者使用圖像和文本對GPT-4o進行微調,大大增強了模型的視覺理解能力。這項功能為各種應用開闢了新的可能性,如增強視覺搜索功能、改進自動駕駛車輛的物體檢測,以及提高醫療圖像分析的準確性。

主要特點:

  • 只需100張圖像就可以改善GPT-4o的視覺任務性能
  • 使用更大量的文本和圖像數據可以進一步提高性能
  • 微調過程與純文本微調類似,開發者需要準備符合特定格式的圖像數據集

實際應用案例:

  1. Grab公司利用視覺微調提高了車道數量準確性20%,限速標誌定位準確性13%
  2. Automat公司訓練GPT-4o定位屏幕上的UI元素,將其RPA代理的成功率從16.60%提高到61.67%
  3. Coframe公司通過視覺微調提高了26%的網站生成能力,使生成的網站在視覺風格和佈局上更加一致

視覺微調功能現已向所有付費使用層級的開發者開放,支持最新的GPT-4o模型快照’gpt-4o-2024-08-06’。OpenAI還提供了免費的訓練令牌配額,以幫助開發者開始使用這項功能。

即時API(Introducing the Realtime API):實現低延遲的語音對話體驗

即時API是OpenAI最新推出的功能,旨在讓開發者能夠在應用中構建低延遲、多模態的體驗。這項功能支持使用六種預設語音進行自然的語音對話,類似於ChatGPT的高級語音模式。

主要特點:

  • 支持直接流式傳輸音頻輸入和輸出,實現更自然的對話體驗
  • 可以自動處理中斷,類似於ChatGPT的高級語音模式
  • 支持函數調用,使語音助手能夠觸發動作或引入新的上下文

實際應用案例:

  1. Healthify營養和健身教練應用使用即時API實現與AI教練Ria的自然對話
  2. Speak語言學習應用利用即時API為其角色扮演功能提供支持,鼓勵用戶練習新語言的對話

即時API現已向所有付費開發者公開測試版。它使用新的GPT-4o模型gpt-4o-realtime-preview。定價方面,文本輸入令牌每1M為$5,輸出令牌每1M為$20。音頻輸入每1M令牌$100,輸出每1M令牌$200。

常見問題解答

Q1: 這些新功能是否適用於所有OpenAI用戶? A1: 模型蒸餾、提示詞快取和視覺微調功能向所有付費開發者開放。即時API目前處於公開測試階段,同樣向付費開發者開放。

Q2: 使用這些新功能是否需要額外的費用? A2: 每項功能的定價策略略有不同。提示詞快取自動提供折扣,模型蒸餾和視覺微調在有限時間內提供免費配額,而即時API則有特定的定價結構。建議查看每項功能的具體定價詳情。

Q3: 這些新功能如何保護用戶隱私和數據安全? A3: OpenAI強調所有這些服務都受到企業隱私承諾的約束。他們採用多層安全保護措施,包括自動監控和人工審核。微調模型和數據完全由用戶控制,OpenAI不會在未經明確許可的情況下使用這些數據訓練模型。

Q4: 開發者如何開始使用這些新功能? A4: OpenAI為每項功能提供了詳細的文檔和指南。開發者可以訪問OpenAI的開發者平台,查看相關文檔,並按照指示開始集成這些新功能到他們的應用中。

這些新功能的推出標誌著OpenAI在提升AI應用開發效率和可訪問性方面邁出了重要一步。通過提供更多工具和選項,OpenAI正在為開發者創造一個更加靈活和強大的AI開發環境。

Share on:
Previous: NotebookLM:Google最新AI筆記工具,讓你的研究效率倍增!(什麼是NotebookLM)
Next: ChatGPT升級語音互動:OpenAI推出高級語音模式,為AI對話體驗帶來革新
DMflow.chat

DMflow.chat

一站式整合Facebook、Instagram、Telegram、LINE和網站的聊天機器人,支持ChatGPT和Gemini模型,具備保留歷史紀錄、推播通知、行銷活動和客服轉接功能。