
DMflow.chat
廣告
一站整合多平台聊天,體驗真人與 AI 自由切換的新境界!支援 Facebook、Instagram、Telegram、LINE 及網站,結合歷史記錄、推播通知、行銷活動及客服轉接,全面提升效率與互動。
嘿,各位,最近 DeepSeek 開源社群可熱鬧了!他們在 #OpenSourceWeek 的第二天,就丟出了一個超厲害的東西:DeepEP。這可不是一般的通訊函式庫,而是專門為「混合專家模型」(Mixture-of-Experts,MoE)量身打造的。
簡單來說,DeepEP 是一個能讓 MoE 模型在訓練和推論時,溝通更有效率的函式庫。你知道的,MoE 模型就像一群各有所長的專家,DeepEP 就像是他們的超級聯絡官,讓這些專家之間的溝通暢行無阻。
DeepEP 的幾個特點,讓我來跟你娓娓道來:
說真的,DeepEP 解決了我們在做 MoE 模型時的很多痛點,你懂的,當你的模型裡有一堆專家,如何讓他們有效溝通真的很重要。
DeepEP 的核心,就是它那些厲害的 all-to-all GPU kernels,也就是大家常說的 MoE dispatch 和 combine。這些 kernels 不只速度快,還支援低精度的運算,像是 FP8。
還有,為了配合 DeepSeek-V3 論文中提到的 group-limited gating 演算法,DeepEP 提供了一系列的 kernels,專門優化非對稱域的頻寬轉發(asymmetric-domain bandwidth forwarding),像是把資料從 NVLink 域轉發到 RDMA 域。這些 kernels 的吞吐量超高,不管是訓練還是推論預填充都很好用。而且,它們還支援 SM(Streaming Multiprocessors)數量的控制。
對於需要低延遲的推論解碼,DeepEP 也有一組專門的 kernels,只用 RDMA 來降低延遲。它還引入了一個基於 hook 的通訊-運算重疊方法,完全不佔用任何 SM 資源。
DeepEP 的開發團隊在 H800 上做了測試,結果真的很亮眼。
一般 kernels(NVLink 和 RDMA 轉發):
低延遲 kernels(純 RDMA):
老實說,看到這些數據,我真的覺得 DeepEP 很厲害!
DeepEP 的安裝和使用都很簡單,只要你的硬體和軟體符合以下條件:
DeepEP 還依賴一個修改過的 NVSHMEM,記得要先安裝好。
安裝好之後,就可以在你的 Python 專案裡匯入 deep_ep
,開始享受它帶來的便利了!
DeepEP 已經在 InfiniBand 網路上做了完整的測試,不過理論上它也相容於 RDMA over Converged Ethernet(RoCE)。
為了避免不同類型的流量互相干擾,建議使用 InfiniBand 的 Virtual Lanes(VL)來隔離:
你可以透過設定 NVSHMEM_IB_SL
環境變數來控制 DeepEP 使用的 VL。
另外,低延遲 kernels 支援 InfiniBand 交換器的自適應路由(adaptive routing)功能,可以更平均地分配流量。不過,一般 kernels 目前還不支援,未來可能會加入。
DeepEP 真的是一個很棒的工具,對於在做 MoE 模型的人來說,絕對值得一試。它不只效能好,還很容易上手。如果你也對 MoE 模型有興趣,不妨試試看 DeepEP,相信你一定會喜歡它!
一站整合多平台聊天,體驗真人與 AI 自由切換的新境界!支援 Facebook、Instagram、Telegram、LINE 及網站,結合歷史記錄、推播通知、行銷活動及客服轉接,全面提升效率與互動。
DeepSeek-V3-0324 震撼發布:免費商業使用,支援消費級設備! 簡介 DeepSeek 再次以低調但震撼業界的方式推出了最新的大型語言模型——DeepSeek-V3-0324。這款...
DeepSeek 開源週第三天:推出 DeepGEMM — AI 訓練與推理的新利器 什麼是 DeepGEMM? DeepSeek 在其「開源週」第三天正式推出 DeepGEMM,這款開源函式...
3000GB/s?DeepSeek 的新工具正在改變大型語言模型的遊戲規則 DeepSeek 剛剛釋出了一個超級令人興奮的消息!今天是他們「開源週」的第一天,他們一開始就來個震撼彈 ——...
DeepSeek R1:開源 AI 模型革命,挑戰 OpenAI 霸主地位 中國 AI 實驗室 DeepSeek 推出全新開源推理模型 DeepSeek R1,不僅在多項基準測試中與 O...
DeepSeek V3 引發爭議:中國 AI 模型為何自稱是 ChatGPT? 中國 AI 實驗室 DeepSeek 新發布的模型出現認知混亂,自稱 ChatGPT。本文將深入探討此現象...
DeepSeek R1T Chimera 登陸 OpenRouter!AI 界新寵兒,智慧與效率的完美融合? 最新開源 AI 模型 DeepSeek R1T Chimera 震撼登場 O...
Manus 正式推出付費方案:Starter 套餐每月 $39 美元 Manus 進軍付費市場,從免費試用轉向商業模式 在 AI 服務競爭日益激烈的市場中,Manus 正式宣布推出其首個付費...
Google 發佈 Gemini 1.5 最新版本:性能提升、價格降低、速度加快 描述 Google 推出了 Gemini 1.5 系列的最新版本,包括 Gemini-1.5-Pro-002 ...
OpenAI Day1: 推出 ChatGPT Pro,月費200美金,o1 正式版付費用戶已可使用 描述 了解 ChatGPT Pro 的強大功能,為研究者、工程師和專業人士提供提升生產力的...
By continuing to use this website, you agree to the use of cookies according to our privacy policy.