微軟 TRELLIS.2 開源登場:40 億參數模型如何重新定義單圖轉 3D 的高畫質標準
微軟研究團隊最新發布了 TRELLIS.2,這是一款擁有 40 億參數的圖片轉 3D 模型,採用創新的 O-Voxel 表徵與 SC-VAE 技術。本文將解析其如何實現 1536³ 解析度的高精細度 …
Read MorePage 11 of 76 (759 items)
微軟研究團隊最新發布了 TRELLIS.2,這是一款擁有 40 億參數的圖片轉 3D 模型,採用創新的 O-Voxel 表徵與 SC-VAE 技術。本文將解析其如何實現 1536³ 解析度的高精細度 …
Read More語音 AI 技術終於不再被昂貴的 API 和網路延遲綁架。Neuphonic 推出的 NeuTTS Air 是一款基於 0.5B 語言模型的輕量級語音生成工具,主打在本地裝置上運行,僅需 3 秒音訊 …
Read More想要擁有真人般的 AI 語音,卻受限於硬體或生成速度嗎?MiraTTS 橫空出世,這款基於 LLM 的語音合成模型不僅只需 6GB VRAM 即可運行,更透過 Lmdeploy 與 FlashSR …
Read More還記得嗎?過去挑選 AI 模型時,總感覺像在做一道兩難的選擇題:究竟要選一個「腦袋好,但反應慢、價格貴」的頂級模型,還是要一個「反應快、便宜,但偶爾會犯傻」的輕量級選手?這就像在追求速度與智慧之間, …
Read More在這波人工智慧的浪潮中,12 月似乎成為了各大科技巨頭展示肌肉的關鍵時刻。Google 不僅更新了模型,更直接將戰場拉到了「速度」與「實用性」的極致平衡;OpenAI 則選擇擴大生態系,讓開發者真正 …
Read More
阿里雲 FunAudioLLM 團隊最新發布 CosyVoice 3,這款僅 0.5B 參數的 TTS 模型支援中英日韓等 9 種語言及 18 種方言,具備 150ms 極低延遲與超高擬真度。本文詳 …
Read More在這個 AI 模型層出不窮的時刻,開發者和企業往往面臨一個兩難的抉擇:是要追求參數巨大的模型以獲得更高的「智商」,還是妥協於運算成本,選擇反應較快的小模型?通常這兩者很難兼得。 不過, …
Read More想像一下,只要點擊影片中的吉他,就能瞬間分離出它的獨奏聲。Meta 全新發布的 SAM Audio 模型,透過文字、視覺和時間軸指令,徹底改變了我們處理音訊的方式。這不只是 AI 的技術突破,更是創 …
Read More本週對於人工智慧領域來說,絕對是熱鬧非凡的一週。從視覺創作到聽覺處理,再到科學研究與日常生產力,幾家科技巨頭不約而同地釋出了令人驚艷的新工具。OpenAI 終於解決了 AI 繪圖「微調」的痛 …
Read More深入解析 Resemble AI 最新推出的 Chatterbox-Turbo,這款僅 3.5 億參數的開源模型如何透過單步解碼與副語言標籤(如笑聲、咳嗽)重新定義語音合成的真實感。本文將提供詳細的 …
Read More
© 2026 Communeify. All rights reserved.