DeepSeek 開源週第三天:推出 DeepGEMM — AI 訓練與推理的新利器

什麼是 DeepGEMM?

DeepSeek 在其「開源週」第三天正式推出 DeepGEMM,這款開源函式庫支援 FP8 通用矩陣乘法 (GEMM),專為 密集型與專家混合模型 (MoE) 矩陣運算 而設計。這項工具強力支援 DeepSeek 的旗艦模型 — DeepSeek V3R1 的訓練與推理。

但 DeepGEMM 究竟有什麼獨特之處?我們來仔細看看。

極速效能與極簡設計的完美結合

根據 DeepSeek 官方在 X (前身為 Twitter) 上的公告,DeepGEMM 在 NVIDIA Hopper GPU 上的 FP8 運算效能高達 1350+ TFLOPS。更令人驚豔的是,其核心邏輯僅約 300 行程式碼,在簡單與高速間取得了巧妙平衡。

以下是 DeepGEMM 的亮點功能:

  • 無需繁複的相依套件 — 避免陷入龐大的函式庫地獄。
  • 即時編譯 (JIT) — 所有核心函數於執行時編譯,免除冗長的安裝過程。
  • 支援密集與 MoE 佈局 — 讓開發者靈活應對複雜的 AI 模型。
  • 乾淨且教學風格的設計 — 非常適合想深入研究 FP8 矩陣運算的開發者。

DeepGEMM 與專家調校函式庫的對決

在 AI 模型訓練中,效能至關重要,而 DeepGEMM 的表現毫不遜色。事實上,在多種矩陣尺寸下,它的效能不僅與 專家級調校函式庫 並駕齊驅,甚至有所超越。

密集模型的標準 GEMM (與 CUTLASS 3.6 相比的加速比)

M N K 運算效能 (TFLOPS) 加速比
64 2112 7168 206 2.7x
128 2112 7168 352 2.4x
4096 2112 7168 1058 1.1x

專家模型的群組 GEMM (遮罩佈局)

群組數 每群組 M N K 運算效能 (TFLOPS) 加速比
1 1024 4096 7168 1233 1.2x
2 512 7168 2048 916 1.2x
4 256 4096 7168 932 1.1x

儘管 DeepGEMM 的表現令人驚豔,團隊也坦言部分矩陣尺寸的效能仍有進步空間。他們誠摯邀請開發者提交 優化 Pull Requests (PR),共同提升這套工具。

開發者為何該關注?

DeepSeek 不僅在打造自己的工具,更在推動 開源合作。透過釋出 DeepGEMM,他們讓全球開發者有機會共同推動 AI 訓練與推理的技術發展。不僅侷限於 DeepSeek 的模型,這是一場全球性的技術生態合作。

此外,對於想深入研究 FP8 矩陣運算的人來說,DeepGEMM 的簡潔設計讓你可以毫無障礙地探索 Hopper tensor cores,而無需陷入過度工程化的程式碼泥沼。

如何開始使用 DeepGEMM?

想試試看 DeepGEMM 嗎?以下是基本需求:

需求條件:

  • NVIDIA Hopper 架構 GPU (支援 sm_90a)
  • Python 3.8 以上
  • CUDA 12.3 以上 (建議使用 12.8)
  • PyTorch 2.1 以上
  • CUTLASS 3.6 (可透過 Git 子模組下載)

詳細專案與安裝指南請見:DeepGEMM 在 GitHub

未來展望

DeepSeek 的開源週已經發布了 FlashMLA (快速語言模型架構) 與 DeepEP (專家平行通訊),如今又透過 DeepGEMM 穩固了其在 AI 基礎建設領域的地位。

但這僅僅是個開始。有了社群的參與與優化,DeepGEMM 不僅能提升 DeepSeek 的模型效能,更可能成為全球 AI 研究人員的強大工具。

準備好一起探索 FP8 GEMM 的無限可能了嗎?讓我們攜手構築 AI 的未來,一個矩陣運算接著一個。

Share on:
Previous: Google 推出免費 AI 代碼助手 Gemini Code Assist:每月 18 萬次代碼補全
Next: DeepSeek 推出了 DeepEP,MoE 模型訓練的秘密武器
DMflow.chat

DMflow.chat

廣告

全能 DMflow.chat:支援多平台整合與持久記憶,客製欄位靈活運用,無需額外開發即可連接資料庫與表單,網頁互動+API 輸出,一步到位!

DeepSeek 推出了 DeepEP,MoE 模型訓練的秘密武器
25 February 2025

DeepSeek 推出了 DeepEP,MoE 模型訓練的秘密武器

DeepSeek 推出了 DeepEP,MoE 模型訓練的秘密武器 嘿,各位,最近 DeepSeek 開源社群可熱鬧了!他們在 #OpenSourceWeek 的第二天,就丟出了一個超厲...

3000GB/s?DeepSeek 的新工具正在改變大型語言模型的遊戲規則
24 February 2025

3000GB/s?DeepSeek 的新工具正在改變大型語言模型的遊戲規則

3000GB/s?DeepSeek 的新工具正在改變大型語言模型的遊戲規則 DeepSeek 剛剛釋出了一個超級令人興奮的消息!今天是他們「開源週」的第一天,他們一開始就來個震撼彈 ——...

DeepSeek R1:開源 AI 模型革命,挑戰 OpenAI 霸主地位
23 January 2025

DeepSeek R1:開源 AI 模型革命,挑戰 OpenAI 霸主地位

DeepSeek R1:開源 AI 模型革命,挑戰 OpenAI 霸主地位 中國 AI 實驗室 DeepSeek 推出全新開源推理模型 DeepSeek R1,不僅在多項基準測試中與 O...

DeepSeek V3 引發爭議:中國 AI 模型為何自稱是 ChatGPT?
3 January 2025

DeepSeek V3 引發爭議:中國 AI 模型為何自稱是 ChatGPT?

DeepSeek V3 引發爭議:中國 AI 模型為何自稱是 ChatGPT? 中國 AI 實驗室 DeepSeek 新發布的模型出現認知混亂,自稱 ChatGPT。本文將深入探討此現象...

Mistral Small 3.1:開放 AI 的新戰場?法國 AI 新創挑戰美國巨頭
18 March 2025

Mistral Small 3.1:開放 AI 的新戰場?法國 AI 新創挑戰美國巨頭

Mistral Small 3.1:開放 AI 的新戰場?法國 AI 新創挑戰美國巨頭 Mistral AI 推出最新開源模型,小型化也能超越 GPT-4o Mini? 法國 AI 新創 M...

Google Gemini 2.0 Flash 水印去除功能引發版權爭議
18 March 2025

Google Gemini 2.0 Flash 水印去除功能引發版權爭議

Google Gemini 2.0 Flash 水印去除功能引發版權爭議 Google AI 新功能再掀版權風暴? 於先前發表的文章Google Gemini 2.0 Flash 解鎖原生圖...

OpenAI 12天重大更新全解析:O1正式版、ChatGPT Pro、Sora影片生成、O3懶人包整理
21 December 2024

OpenAI 12天重大更新全解析:O1正式版、ChatGPT Pro、Sora影片生成、O3懶人包整理

OpenAI 12天重大更新全解析:O1正式版、ChatGPT Pro、Sora影片生成、O3懶人包整理 簡介 OpenAI連發12項重大更新整理,包含O1正式版發布、ChatGPT Pro訂...

深入解析 IBM watsonx Assistant:提升業務效率的對話式 AI 解決方案(什麼是 IBM watsonx Assistant)
8 August 2024

深入解析 IBM watsonx Assistant:提升業務效率的對話式 AI 解決方案(什麼是 IBM watsonx Assistant)

深入解析 IBM watsonx Assistant:提升業務效率的對話式 AI 解決方案 IBM watsonx Assistant 是一款專為構建 AI 助手設計的對話式 AI 解決方案,...

人工智慧巨擘OpenAI:企業用戶突破百萬,準備推出高價訂閱方案
11 September 2024

人工智慧巨擘OpenAI:企業用戶突破百萬,準備推出高價訂閱方案

人工智慧巨擘OpenAI:企業用戶突破百萬,準備推出高價訂閱方案 OpenAI不僅企業用戶突破百萬大關,更計劃推出全新高價AI模型。本文深入探討OpenAI的最新發展,包括其企業版ChatGP...