DeepSeek 推出了 DeepEP,MoE 模型訓練的秘密武器

嘿,各位,最近 DeepSeek 開源社群可熱鬧了!他們在 #OpenSourceWeek 的第二天,就丟出了一個超厲害的東西:DeepEP。這可不是一般的通訊函式庫,而是專門為「混合專家模型」(Mixture-of-Experts,MoE)量身打造的。

DeepEP 到底是什麼東東?🤔

簡單來說,DeepEP 是一個能讓 MoE 模型在訓練和推論時,溝通更有效率的函式庫。你知道的,MoE 模型就像一群各有所長的專家,DeepEP 就像是他們的超級聯絡官,讓這些專家之間的溝通暢行無阻。

DeepEP 的幾個特點,讓我來跟你娓娓道來:

  • 又快又好:它優化了 all-to-all 的通訊,不管是節點內還是節點間,都能發揮 NVLink 和 RDMA 的威力。
  • 訓練推論一把罩:不管是需要高吞吐量的訓練和推論預填充(prefilling),還是需要低延遲的推論解碼(decoding),DeepEP 都有專門的 kernel 來處理。
  • FP8 也沒問題:它還支援原生的 FP8,讓運算更有效率。
  • 彈性十足:你可以靈活控制 GPU 資源,讓運算和通訊可以重疊進行,節省寶貴的時間。

說真的,DeepEP 解決了我們在做 MoE 模型時的很多痛點,你懂的,當你的模型裡有一堆專家,如何讓他們有效溝通真的很重要。

深入了解 DeepEP 的細節 🤓

DeepEP 的核心,就是它那些厲害的 all-to-all GPU kernels,也就是大家常說的 MoE dispatch 和 combine。這些 kernels 不只速度快,還支援低精度的運算,像是 FP8。

還有,為了配合 DeepSeek-V3 論文中提到的 group-limited gating 演算法,DeepEP 提供了一系列的 kernels,專門優化非對稱域的頻寬轉發(asymmetric-domain bandwidth forwarding),像是把資料從 NVLink 域轉發到 RDMA 域。這些 kernels 的吞吐量超高,不管是訓練還是推論預填充都很好用。而且,它們還支援 SM(Streaming Multiprocessors)數量的控制。

對於需要低延遲的推論解碼,DeepEP 也有一組專門的 kernels,只用 RDMA 來降低延遲。它還引入了一個基於 hook 的通訊-運算重疊方法,完全不佔用任何 SM 資源。

實際效能如何?數據會說話!📊

DeepEP 的開發團隊在 H800 上做了測試,結果真的很亮眼。

  • 一般 kernels(NVLink 和 RDMA 轉發)

    • 節點內:dispatch 和 combine 的瓶頸頻寬分別達到 153 GB/s 和 158 GB/s(NVLink)。
    • 節點間:dispatch 和 combine 的瓶頸頻寬都能達到 40 GB/s 以上(RDMA)。
  • 低延遲 kernels(純 RDMA)

    • 在不同數量的 EP 下,dispatch 的延遲大約在 163 到 194 微秒之間,combine 的延遲大約在 318 到 360 微秒之間。
    • RDMA 的頻寬也能達到 40 GB/s 左右。

老實說,看到這些數據,我真的覺得 DeepEP 很厲害!

如何開始使用 DeepEP?🚀

DeepEP 的安裝和使用都很簡單,只要你的硬體和軟體符合以下條件:

  • Hopper 架構的 GPU(未來可能會支援更多)
  • Python 3.8 或以上
  • CUDA 12.3 或以上
  • PyTorch 2.1 或以上
  • 節點內通訊需要 NVLink
  • 節點間通訊需要 RDMA 網路

DeepEP 還依賴一個修改過的 NVSHMEM,記得要先安裝好。

安裝好之後,就可以在你的 Python 專案裡匯入 deep_ep,開始享受它帶來的便利了!

網路設定的小撇步 💡

DeepEP 已經在 InfiniBand 網路上做了完整的測試,不過理論上它也相容於 RDMA over Converged Ethernet(RoCE)。

為了避免不同類型的流量互相干擾,建議使用 InfiniBand 的 Virtual Lanes(VL)來隔離:

  • 使用一般 kernels 的工作負載
  • 使用低延遲 kernels 的工作負載
  • 其他工作負載

你可以透過設定 NVSHMEM_IB_SL 環境變數來控制 DeepEP 使用的 VL。

另外,低延遲 kernels 支援 InfiniBand 交換器的自適應路由(adaptive routing)功能,可以更平均地分配流量。不過,一般 kernels 目前還不支援,未來可能會加入。

總結一下 📝

DeepEP 真的是一個很棒的工具,對於在做 MoE 模型的人來說,絕對值得一試。它不只效能好,還很容易上手。如果你也對 MoE 模型有興趣,不妨試試看 DeepEP,相信你一定會喜歡它!

Share on:
Previous: DeepSeek 開源週第三天:推出 DeepGEMM — AI 訓練與推理的新利器
Next: Claude 3.7 Sonnet:前沿推理與實用性的完美結合
DMflow.chat

DMflow.chat

廣告

DMflow.chat:智能整合,創新溝通!支援持久記憶、客製欄位,無縫連接資料庫與表單,還能自行接 API 輸出資料,讓網頁互動更加靈活高效!

DeepSeek 開源週第三天:推出 DeepGEMM — AI 訓練與推理的新利器
26 February 2025

DeepSeek 開源週第三天:推出 DeepGEMM — AI 訓練與推理的新利器

DeepSeek 開源週第三天:推出 DeepGEMM — AI 訓練與推理的新利器 什麼是 DeepGEMM? DeepSeek 在其「開源週」第三天正式推出 DeepGEMM,這款開源函式...

3000GB/s?DeepSeek 的新工具正在改變大型語言模型的遊戲規則
24 February 2025

3000GB/s?DeepSeek 的新工具正在改變大型語言模型的遊戲規則

3000GB/s?DeepSeek 的新工具正在改變大型語言模型的遊戲規則 DeepSeek 剛剛釋出了一個超級令人興奮的消息!今天是他們「開源週」的第一天,他們一開始就來個震撼彈 ——...

DeepSeek R1:開源 AI 模型革命,挑戰 OpenAI 霸主地位
23 January 2025

DeepSeek R1:開源 AI 模型革命,挑戰 OpenAI 霸主地位

DeepSeek R1:開源 AI 模型革命,挑戰 OpenAI 霸主地位 中國 AI 實驗室 DeepSeek 推出全新開源推理模型 DeepSeek R1,不僅在多項基準測試中與 O...

DeepSeek V3 引發爭議:中國 AI 模型為何自稱是 ChatGPT?
3 January 2025

DeepSeek V3 引發爭議:中國 AI 模型為何自稱是 ChatGPT?

DeepSeek V3 引發爭議:中國 AI 模型為何自稱是 ChatGPT? 中國 AI 實驗室 DeepSeek 新發布的模型出現認知混亂,自稱 ChatGPT。本文將深入探討此現象...

Google Gemini 全新升級:更強的 AI 理解力、更貼心的個人化體驗
14 March 2025

Google Gemini 全新升級:更強的 AI 理解力、更貼心的個人化體驗

Google Gemini 全新升級:更強的 AI 理解力、更貼心的個人化體驗 Gemini 2.0 Flash Thinking 登場:AI 理解力全面進化 Google 正式推出 G...

Google 開源最新多模態模型 Gemma-3:效能卓越、運算成本降十倍
13 March 2025

Google 開源最新多模態模型 Gemma-3:效能卓越、運算成本降十倍

Google 開源最新多模態模型 Gemma-3:效能卓越、運算成本降十倍 🚀 開啟 AI 新紀元:Google 推出開源多模態大模型 Gemma-3 Google 執行長 Sundar P...

OpenAI GPT-4o 悄然升級,AI 技術競賽再掀波瀾
18 February 2025

OpenAI GPT-4o 悄然升級,AI 技術競賽再掀波瀾

OpenAI GPT-4o 悄然升級,AI 技術競賽再掀波瀾 你發現了嗎?OpenAI 最近對旗下的 ChatGPT 進行了重要升級,最新版本 GPT-4o 再度成為業界焦點。這一消息由...

Meta 推出 Llama 3.1:開源 AI 的新里程碑
25 July 2024

Meta 推出 Llama 3.1:開源 AI 的新里程碑

Meta 推出 Llama 3.1:開源 AI 的新里程碑 Meta 推出了 Llama 3.1 系列模型,其中包括 405B 參數的旗艦模型,這是首個能與頂級閉源 AI 模型相媲美的開源模型...

xAI 宣布 Grok3 免費開放,直到伺服器崩潰為止
21 February 2025

xAI 宣布 Grok3 免費開放,直到伺服器崩潰為止

xAI 宣布 Grok3 免費開放,直到伺服器崩潰為止 xAI 今日正式發布其最新 AI 模型 Grok3,並聲稱其為 世界上最聰明的 AI。該公司宣布,Grok3 現已免費開放試用,直...