
DMflow.chat
廣告
DMflow.chat:智能整合,創新溝通!支援持久記憶、客製欄位,無縫連接資料庫與表單,還能自行接 API 輸出資料,讓網頁互動更加靈活高效!
嘿,各位,最近 DeepSeek 開源社群可熱鬧了!他們在 #OpenSourceWeek 的第二天,就丟出了一個超厲害的東西:DeepEP。這可不是一般的通訊函式庫,而是專門為「混合專家模型」(Mixture-of-Experts,MoE)量身打造的。
簡單來說,DeepEP 是一個能讓 MoE 模型在訓練和推論時,溝通更有效率的函式庫。你知道的,MoE 模型就像一群各有所長的專家,DeepEP 就像是他們的超級聯絡官,讓這些專家之間的溝通暢行無阻。
DeepEP 的幾個特點,讓我來跟你娓娓道來:
說真的,DeepEP 解決了我們在做 MoE 模型時的很多痛點,你懂的,當你的模型裡有一堆專家,如何讓他們有效溝通真的很重要。
DeepEP 的核心,就是它那些厲害的 all-to-all GPU kernels,也就是大家常說的 MoE dispatch 和 combine。這些 kernels 不只速度快,還支援低精度的運算,像是 FP8。
還有,為了配合 DeepSeek-V3 論文中提到的 group-limited gating 演算法,DeepEP 提供了一系列的 kernels,專門優化非對稱域的頻寬轉發(asymmetric-domain bandwidth forwarding),像是把資料從 NVLink 域轉發到 RDMA 域。這些 kernels 的吞吐量超高,不管是訓練還是推論預填充都很好用。而且,它們還支援 SM(Streaming Multiprocessors)數量的控制。
對於需要低延遲的推論解碼,DeepEP 也有一組專門的 kernels,只用 RDMA 來降低延遲。它還引入了一個基於 hook 的通訊-運算重疊方法,完全不佔用任何 SM 資源。
DeepEP 的開發團隊在 H800 上做了測試,結果真的很亮眼。
一般 kernels(NVLink 和 RDMA 轉發):
低延遲 kernels(純 RDMA):
老實說,看到這些數據,我真的覺得 DeepEP 很厲害!
DeepEP 的安裝和使用都很簡單,只要你的硬體和軟體符合以下條件:
DeepEP 還依賴一個修改過的 NVSHMEM,記得要先安裝好。
安裝好之後,就可以在你的 Python 專案裡匯入 deep_ep
,開始享受它帶來的便利了!
DeepEP 已經在 InfiniBand 網路上做了完整的測試,不過理論上它也相容於 RDMA over Converged Ethernet(RoCE)。
為了避免不同類型的流量互相干擾,建議使用 InfiniBand 的 Virtual Lanes(VL)來隔離:
你可以透過設定 NVSHMEM_IB_SL
環境變數來控制 DeepEP 使用的 VL。
另外,低延遲 kernels 支援 InfiniBand 交換器的自適應路由(adaptive routing)功能,可以更平均地分配流量。不過,一般 kernels 目前還不支援,未來可能會加入。
DeepEP 真的是一個很棒的工具,對於在做 MoE 模型的人來說,絕對值得一試。它不只效能好,還很容易上手。如果你也對 MoE 模型有興趣,不妨試試看 DeepEP,相信你一定會喜歡它!
DMflow.chat:智能整合,創新溝通!支援持久記憶、客製欄位,無縫連接資料庫與表單,還能自行接 API 輸出資料,讓網頁互動更加靈活高效!
DeepSeek 開源週第三天:推出 DeepGEMM — AI 訓練與推理的新利器 什麼是 DeepGEMM? DeepSeek 在其「開源週」第三天正式推出 DeepGEMM,這款開源函式...
3000GB/s?DeepSeek 的新工具正在改變大型語言模型的遊戲規則 DeepSeek 剛剛釋出了一個超級令人興奮的消息!今天是他們「開源週」的第一天,他們一開始就來個震撼彈 ——...
DeepSeek R1:開源 AI 模型革命,挑戰 OpenAI 霸主地位 中國 AI 實驗室 DeepSeek 推出全新開源推理模型 DeepSeek R1,不僅在多項基準測試中與 O...
DeepSeek V3 引發爭議:中國 AI 模型為何自稱是 ChatGPT? 中國 AI 實驗室 DeepSeek 新發布的模型出現認知混亂,自稱 ChatGPT。本文將深入探討此現象...
Google Gemini 全新升級:更強的 AI 理解力、更貼心的個人化體驗 Gemini 2.0 Flash Thinking 登場:AI 理解力全面進化 Google 正式推出 G...
Google 開源最新多模態模型 Gemma-3:效能卓越、運算成本降十倍 🚀 開啟 AI 新紀元:Google 推出開源多模態大模型 Gemma-3 Google 執行長 Sundar P...
OpenAI GPT-4o 悄然升級,AI 技術競賽再掀波瀾 你發現了嗎?OpenAI 最近對旗下的 ChatGPT 進行了重要升級,最新版本 GPT-4o 再度成為業界焦點。這一消息由...
Meta 推出 Llama 3.1:開源 AI 的新里程碑 Meta 推出了 Llama 3.1 系列模型,其中包括 405B 參數的旗艦模型,這是首個能與頂級閉源 AI 模型相媲美的開源模型...
xAI 宣布 Grok3 免費開放,直到伺服器崩潰為止 xAI 今日正式發布其最新 AI 模型 Grok3,並聲稱其為 世界上最聰明的 AI。該公司宣布,Grok3 現已免費開放試用,直...
By continuing to use this website, you agree to the use of cookies according to our privacy policy.