
{: width=“100%” }
圖片來自OpenAI ChatGPT-4o Mini{:target="_blank"}
7月18日,OpenAI宣布推出ChatGPT-4o Mini,這是一款旨在為使用者提供更高效且經濟的新型人工智能模型。這個新模型不僅在性能上優於ChatGPT-3.5 Turbo,還將使用成本大幅降低,為開發者和企業帶來新可能。
ChatGPT-3.5的進化
- 更高智能:在MMLU測試中,ChatGPT-4o Mini獲得82%的高分,遠勝於ChatGPT-3.5 Turbo的69.8%。
- 價格優勢:ChatGPT-4o Mini的價格比ChatGPT-3.5 Turbo低60%以上,每百萬輸入token僅需0.15美元,輸出token每百萬只需0.60美元。
- 語言能力提升:該模型在非英語語言的理解和應用能力上有明顯進步。
- 上下文視窗擴展:擁有128k的上下文窗口,支援16k的輸出token,知識截止日期更新至2023年10月。
功能特點
- 多模態功能:目前支援文本和視覺,未來將增加音頻與視頻功能。
- 適用場景:
- 高容量任務:例如傳遞完整的代碼庫或對話歷史。
- 成本敏感任務:如總結大型文檔。
- 快速回應任務:如客戶支持聊天機器人。
- 批處理優惠:批處理API享受50%折扣,適用於24小時內的異步批處理作業。
- 即將推出的功能:未來幾天將推出微調功能。
結論
ChatGPT-4o Mini的推出為開發者和企業提供了高智能、經濟實惠的AI選擇,不僅在性能上優於ChatGPT-3.5 Turbo,還降低了成本。OpenAI建議使用ChatGPT-3.5 Turbo的開發者轉向ChatGPT-4o Mini,以提升智能和降低開支。無論是聊天完成API、助手API還是批處理API,ChatGPT-4o Mini都將為使用者帶來更多價值和可能性。

DMflow.chat
探索DMflow.chat,立即開啟AI驅動的客戶服務新時代。
Learn More
DMflow.chat
DMflow.chat: 您的智能AI夥伴,提升客戶互動、創造卓越體驗。
Learn More
scribis.app
Scribis: 字幕編輯、語音轉錄文字、即時顯示轉錄文字。
Learn More
videoweaver.app
Video Weaver: 瀏覽器內完成專業影片剪輯,無需下載、即刻創作。
Learn More
DMflow.chat
探索DMflow.chat,立即開啟AI驅動的客戶服務新時代。
Learn More
DMflow.chat
DMflow.chat: 您的智能AI夥伴,提升客戶互動、創造卓越體驗。
Learn More
scribis.app
Scribis: 字幕編輯、語音轉錄文字、即時顯示轉錄文字。
Learn More
videoweaver.app
Video Weaver: 瀏覽器內完成專業影片剪輯,無需下載、即刻創作。
Learn MoreRecommended for You
顛覆打字機模式!Google 推出 DiffusionGemma,本地 AI 推論為何能狂飆 4 倍速?
顛覆傳統打字機模式!Google 推出 DiffusionGemma,本地 AI 推論速度為何能狂飆 4 倍? 說實話,看著螢幕上的文字一個接一個蹦出來,有時候真的讓人相當不耐煩。目前大多數的大型語言模型,就像是一台不知疲倦的打字機。無論背後的硬體多麼強大,它們始終堅持由左至右、逐字生成的規律。這聽起來很合理,對吧?但你知道嗎,這其實是一種極度浪費硬體資源的運作模式。 為解決這個痛點,Google DeepMind 團隊近期推出了一個極具野心的實驗性專案:DiffusionGemma。這款開源模型將圖像生成領域大放異彩的「擴散」概念,巧妙地轉移到了文字世界。它不再逐字吐出內容,而是一次處理整塊文字區塊。這項技術究竟隱藏著什麼秘密?它又將如何改變未來本機端人工智慧的發展藍圖?讓我們來一探究竟。 告別單向打字機,迎向一體成型的文字畫布 要理解 DiffusionGemma 的突破,必須先釐清傳統自迴歸模型的侷限。傳統模型在生成文字時,每一個新詞彙的誕生,都必須嚴格依賴前面所有已經生成的詞彙。這種依賴關係導致電腦的運算單元只能乖乖排隊,無法發揮平行處理的最大效益。 DiffusionGemma 徹底打破了這個規則。它將文字生成過程想像成一幅畫布。模型一開始會在這張可以容納 256 個 token 的畫布上,灑滿隨機的佔位符號。接著,透過多次的反覆運算與去噪,模型會鎖定正確的詞彙,並將這些確認好的詞彙當作線索,進一步打磨剩餘的空白處。最終,這幅充滿雜訊的畫布會收斂成一段通順的高品質文字。這種作法讓硬體資源得以火力全開,徹底擺脫了序列生成的枷鎖。 技術原理解密:DiffusionGemma 究竟如何運作? 這款模型能夠實現如此驚人的平行生成,背後仰賴著幾個極為關鍵的技術創新。 從死板遮罩到動態的均勻狀態擴散 早期的文字擴散研究,通常會使用固定的遮罩符號來掩蓋未生成的文字。這種做法雖然直觀,卻缺乏彈性。DiffusionGemma 選擇了一條截然不同的道路。它採用均勻狀態擴散技術,直接從詞彙表中抽取隨機 token 來充當初始雜訊。在整個去噪的過程中,模型會平行審視整張畫布,隨時動態修正錯誤。這種機制賦予了模型極高的自我糾正能力。 打破視野侷限的雙向注意力機制 傳統模型永遠只能「往前看」,無法預知未來。DiffusionGemma 的每個 token 卻能同時參考前後文。只要你給定一個框架,模型就能完美填補中間的空白。這項特質對於非線性結構的任務來說簡直是如虎添翼。舉例來說,當開發者需要進行行內程式碼填補、處理複雜的 Markdown 排版,甚至要求模型去解數獨時,這種雙向約束的能力就會展現出壓倒性的優勢。 輕量與效能兼具的混合專家架構 這或許是最讓硬體玩家興奮的一點。這款模型建立在 Gemma 4 的優異基礎上,採用了混合專家架構。它的總參數高達 260 億,但在實際推論的當下,每次僅會啟動其中 38 億的參數。透過適當的量化技術,開發者可以直接從 HuggingFace 模型庫 下載權重,並將其輕鬆塞入擁有 18GB 顯示記憶體的高階消費級顯示卡中。這讓強大的運算能力不再只是資料中心的專利。 效能狂飆的秘密:突破硬體瓶頸的極限 速度翻倍聽起來很完美。不過,這背後其實隱藏著一個關於硬體瓶頸的物理現實。 在本地端由單一使用者執行推論時,傳統自迴歸模型最大的敵人是「記憶體頻寬」。因為模型必須不斷從記憶體中提取資料來計算下一個詞,導致 GPU 強悍的運算核心多數時間都在無奈地閒置等待。 DiffusionGemma 成功將這個瓶頸轉移到了「算力」上。因為它一次丟給處理器 256 個 token 的龐大工作量,GPU 的運算單元瞬間被徹底餵飽。官方公佈的數據相當驚人:在單張消費級 RTX 5090 顯示卡上,它能達到每秒超過 700 個 token 的產出量。若換成伺服器等級的 Nvidia H100,速度更是突破每秒 1,000 個 token。對於本地端專屬硬體來說,這意味著最高達 4 倍的延遲縮減。
MiniMax-M3 登場:4280 億參數、100 萬 Token 長上下文,開源 AI 模型全面解析
MiniMax-M3 登場:4280 億參數與百萬 Token 的巧妙平衡 MiniMaxAI 最新開源的 MiniMax-M3 具備 4280 億參數,支援高達 100 萬 Token 的超長上下文。透過獨創的 MSA 稀疏注意力機制,大幅降低長文運算成本。本文帶您全面解析其原生多模態與雙推理模式的技術亮點。 隨著人工智慧應用場景越來越複雜,市場對語言模型的要求也水漲船高。大家不再只滿足於讓系統讀懂簡單的句子,反而開始期望它能看完一整部影片,或是消化高達數十萬字的技術文件。這個挑戰其實相當艱鉅。不過近期開源社群出現了一個讓人眼睛一亮的震撼彈。MiniMaxAI 團隊推出的 MiniMax-M3 正式發布。 這是一個總參數高達 4280 億的龐然大物。你知道嗎?有些開發者一聽到 4280 億這個數字,第一反應大概是擔心一般伺服器根本跑不動。不過先別急著關掉網頁。MiniMax-M3 雖然體積龐大,但得益於混合專家模型架構,它在實際運行生成時,每次僅會啟動約 230 億個活躍參數。這種巧妙的設計兼顧了知識庫的廣泛程度,同時也讓硬體負擔維持在非常合理的範圍內。這也是它一經推出就受到工程師矚目的原因。 到底什麼是原生多模態? 大家都知道,現在市面上有各式各樣的多模態模型。許多常見的做法是先讓系統學會看懂純文字,後續才外接視覺或聽覺模組。這就像是一個人先學會了母語,長大後再去補習班死背外語單字一樣,資訊轉換上總是會有一層隔閡。 MiniMax-M3 走了一條截然不同且更扎實的路線。它打從訓練的最一開始,就直接將文字、圖片和影片混合在一起進行訓練。沒錯,從第一步開始就是混合訓練。這種原生多模態的設計,讓系統在底層邏輯中就能建立極為透徹的語意連結。當系統在分析一段夾雜著程式碼、架構圖與解說影片的複雜專案時,能展現出極其自然的理解力。它完全打破了傳統拼接模型那種生硬的限制。 拯救百萬長文的秘密武器 聊完多模態,接下來要提一個技術圈非常關注的痛點。過去的技術架構在處理超長文本時,往往會遇到效能瓶頸。當系統需要處理高達 100 萬 Token 的上下文時,運算量會呈現指數級別的爆炸增長。系統很容易因此崩潰或變得極度緩慢。 應對長文本運算昂貴又緩慢的痛點,開發團隊獨家導入了一項名為「MiniMax 稀疏注意力 (MSA)」的技術。這項技術到底解決了什麼問題?讀者不妨這樣想像,當系統面對一本百萬字的巨著時,它不需要從頭到尾死盯著每一個字。相反地,它可以非常聰明地挑出重點段落來讀。透過演算法的最佳化,MSA 大幅縮減了運算量與記憶體佔用。 根據官方數據,M3 在處理 100 萬 Token 時,預填充速度比上一代 M2 快了 9 倍,解碼更是快了 15 倍。最讓人吃驚的是,單一 Token 的運算成本竟然降到了以往的二十分之一。說真的,這對於需要長時間協作的專案來說,絕對是一大福音。 像人一樣切換節奏:雙推理模式 人類大腦在面對不同情境時,運作模式會自動調整。解數學題需要深思熟慮,而日常閒聊通常是脫口而出。MiniMax-M3 也具備類似的彈性,它提供了兩種截然不同的推理模式。 第一種是思考模式 (Thinking)。這專為需要複雜邏輯推理、代理人任務以及長期協作專案而生。如果今天要指派系統閱讀一份長達百頁的財報,並要求它進行極致的數據交叉分析,那就非常適合切換到思考模式,讓它花時間好好推敲邏輯。 第二種則是非思考模式 (Non-thinking)。這取決於應用場景對時間的敏感度。假如正在打造一個客服機器人,或是開發團隊在寫程式時需要 IDE 瞬間跳出自動補全建議,這時候就需要追求極低的延遲。非思考模式完美契合了這類即時性極高的需求。 開源社群的實作指南 憑藉著龐大參數與優異的長文本處理能力,MiniMax-M3 在各項前沿的代理人評估測試中展現了極高的水準。無論是撰寫複雜的程式碼,還是擔任團隊的長期協作助手,它都能游刃有餘。 更棒的是,開發團隊已經大方公開了這項技術。想要探究演算法細節的研究人員,可以直接閱讀發布在 arXiv 上的技術論文。若想立刻動手實作,官方推薦使用 SGLang、vLLM 或是 Transformers 等高效能框架來進行部署。在推論參數的設定上,官方也有給出最佳建議。只要將參數設定為 temperature=1.0 搭配 top_p=0.95 與 top_k=40,就能激發出模型最優異的生成效果。趕緊把握機會,將這款極具潛力的模型整合進下一個專案吧!
Step 3.7 Flash 深度解析:從顧問模式到 GUI 操控,看懂 198B 模型的極致效率
為什麼開發者都在關注 Step 3.7 Flash?揭開這款 MoE 視覺語言模型的實戰潛力 人們總以為大型語言模型體積越大,運作起來就越笨重。這其實是個常見的迷思。仔細想想,當硬體與演算法進步到特定階段,效率與規模早就可以兼得了。由開發團隊推出的 Step 3.7 Flash 徹底顛覆了這個刻板印象。這款全新亮相的模型不僅僅是單純回答問題,它具體展現了人工智慧如何真正在數位環境中採取行動,為代理程式的執行效率立下了一個全新的標竿。 兼具龐大知識與輕巧運算的 MoE 架構 要了解它的特別之處,得先看看引擎蓋底下的規格。這是一個總參數量高達 198B 的混合專家(MoE)視覺語言模型。裡面包含了 196B 的語言主幹,搭配上 1.8B 的視覺編碼器。雖然聽起來極度巨大,但有趣的地方來了——它在每次生成內容時,實際上只會喚醒約 11B 的活躍參數。 這種精巧的設計帶來了驚人的運算效率。它每秒最高可以處理高達 400 個權杖(tokens),讓冗長的運算過程變得流暢無比。更貼心的是它的彈性設計。這款模型具備 256K 的超大上下文長度,還獨創了「低、中、高」三種推理等級。開發人員可以依照當下的專案需求,靈活地在速度、運算成本以及認知複雜度之間找到最完美的平衡點。 聊聊成本破壞者:獨創的顧問模式到底有多省? 說實話,商業應用最在乎的往往是預算。Step 3.7 Flash 在這方面有一個非常聰明的機制,也就是所謂的 「顧問模式(Advisor Mode)」。這個設計可以說是將性價比推向了極致。 運作原理其實相當直觀。在處理軟體工程或寫程式的任務時,Step 3.7 Flash 會扮演第一線的「執行者」。它負責呼叫各種工具,進行枯燥的反覆運算。遇到順利的情況,它就一路把工作默默做完。只有當它卡關了,例如遇到需要複雜計畫擬定,或是反覆嘗試卻不斷失敗的關鍵瓶頸時,它才會向上層更大型的「顧問模型」發出求救訊號。 這種分工模式帶來了極大的優勢。它能以每次任務平均只要 0.19 美元 的銅板價成本,達成媲美 Claude Opus 4.6 高達 97% 的程式碼編寫水準。要知道,後者每次任務的成本大約高達 1.76 美元。如果再加上 API 的 快取命中(cache hit) 優勢,輸入價格甚至能壓低到 每百萬權杖 0.04 美元。這對需要大量處理日常任務的企業來說,無疑是個極大的誘因。 看懂並動手做:視覺與邏輯的完美融合 這款模型最讓人眼睛一亮的地方,絕對是它對圖形化介面與多模態資訊的掌控力。面對高解析度的圖片,或是需要極度精細感知的任務,Step 3.7 Flash 具備了直接呼叫 Python 工具 的能力。它可以完全自主地對圖片進行裁切、局部放大縮小,甚至精準地繪製出邊界框。 最神奇的是它展現出了一種未經刻意訓練的湧現能力。它能夠非常自然地將視覺工具與非視覺工具組合在一起使用。 舉個實際的例子,它可以自己先動手寫出一套前端網頁的程式碼。接著,它會透過 圖形使用者介面(GUI)工具 打開網頁瀏覽器,像個真人測試員一樣,去檢查自己剛寫好的網頁長什麼樣子。一旦發現畫面渲染結果有問題,它會根據眼睛看到的狀況,回頭去修改剛剛的程式碼。