最近のAI画像生成は画質がどんどん向上している一方で、「論理」や「文字」を扱う際によくジョークのようなミスをすることに気づいていますか?
特定のキャッチコピーが入ったポスターを作りたいのに、AIが宇宙語のような意味不明な文字列を出してきたり、左に猫、右に犬、真ん中に本を持ったキリンがいる複雑なシーンを描写したのに、AIが位置を完全に混同してしまったり。これらは、現在の主流である拡散モデル(Diffusion Models)の痛点でもあります。
しかし、Z.aiが新たに発表したGLM-Imageは、この膠着状態を打破するために登場したようです。
これは単なる新しいオープンソースモデルではありません。大規模言語モデル(LLM)の強力な理解力と、拡散モデルの繊細な画質を組み合わせようとする、非常に巧妙な「ハイブリッドアーキテクチャ」を採用しています。それはまるで、技術の高い画家と、論理的で優秀な軍師を組ませたようなものです。
次に、HuggingFaceやGitHubで熱い議論を巻き起こしているこの新技術の何が特別なのか、詳しく見ていきましょう。
なぜGLM-Imageが必要なのか?ハイブリッドアーキテクチャの秘密
ここしばらくの間、拡散モデルは画像生成分野をほぼ独占してきました。安定しており、画質が良く、汎化能力も高いからです。しかし、豊富な知識の蓄積や複雑な指示を必要とするタスクに直面すると、純粋な拡散モデルは力不足になりがちです。それは、絵は上手いが複雑な指示をあまり理解できないアーティストのようなものです。
GLM-Imageは異なる道を選びました。**自己回帰(Auto-regressive)+拡散(Diffusion)**のハイブリッドアーキテクチャを採用したのです。
専門的に聞こえるかもしれませんが、原理は理解しやすいものです:
- 脳の部分(自己回帰モデル): この部分は「理解」と「構図」を担当します。GLM-4-9B-0414モデル(90億パラメータ)に基づき、まずプロンプトを理解し、画像の大まかな意味的レイアウトを計画します。これは、どこに何を配置するかを決定する正確な下書きを最初に作成するようなものです。
- 手の部分(拡散デコーダー): この部分は「着色」と「詳細化」を担当します。CogView4ベースのシングルストリームDiT構造(70億パラメータ)を使用し、その下書きを高解像度で詳細豊かな最終画像に変換します。
この分業により、GLM-Imageは高画質を維持しながら、驚異的な意味理解能力を持つことができます。
意味不明な文字にさようなら:ついに読めるAI文字
GLM-Imageに「キラーアプリ」があるとすれば、それは間違いなくその文字レンダリング能力です。
画像内に特定の文字を必要とするユーザーにとって、これは朗報です。AIに正確な文字を書かせるのがどれほど難しいか、誰もが知っています。このために、GLM-Imageは軽量なGlyph-byT5モデルを特別に導入しました。この小さなモデルは、レンダリングする文字領域の文字レベルのエンコーディングを担当します。
これはどういう意味でしょうか?プロンプトで「Welcome」という単語を要求したとき、もはや文字のように見える記号の羅列を描くのではなく、本当にその単語を「書く」ようになるということです。
公式のテストデータによると、CVTG-2kベンチマークにおいて、GLM-Imageの文字精度は極めて高く、複数の異なる領域の文字を扱う際でも明確な論理を維持しています。ポスターや表紙デザインを作成する必要があるクリエイターにとって、これは間違いなく大幅な時間短縮ツールです。
視覚トークンの選択:なぜSemantic-VQが重要なのか?
ここで少し技術的な詳細について話しましょう。これは非常に興味深い点です。
以前の自己回帰モデルは通常、画像を小さな塊(トークン)に分割して処理していました。しかし、どのように分割しエンコードするかは大きな問題です。1Dベクトルを使用するもの(DALLE2など)もあれば、VQVAEを使用するものもあります。
Z.aiの研究チームは、単純な1Dベクトルは画質には役立つものの、「情報の完全性」に欠け、複雑な物体関係の理解が弱くなることを発見しました。
そのため、GLM-Imageは主なトークン戦略として**Semantic-VQ(意味的視覚量子化)**を採用しました。この方法は、画像の意味的な関連性をよりよく保持します。簡単に言えば、モデルにピクセルの配列を記憶させるだけでなく、画像内容の「意味」を記憶させます。これが、GLM-Imageが複雑な指示に従う際に他のモデルよりも賢く振る舞う理由です。
生徒を教えるようにモデルを訓練する:分離された強化学習
GLM-Imageのトレーニングプロセスも非常に人間味があります。チームは分離された強化学習戦略を使用しました。
これは、生徒の異なる能力を別々に訓練するようなものです:
- 自己回帰ジェネレーター(脳)向け: 意味的一貫性と美学におけるパフォーマンスへの報酬に焦点を当てます。美学のスコアリングにはHPSv3を使用し、生成された文字が正しいことを確認するためにOCR(光学文字認識)技術も使用しました。
- 拡散デコーダー(手)向け: 詳細の復元とテクスチャにおけるパフォーマンスへの報酬に焦点を当てます。
この分離最適化(GRPOとFlow-GRPO)により、モデルは何かを犠牲にすることなく、論理的な正しさと繊細な画質を両立させることができます。
技術的な詳細に興味がある方は、彼らのGitHubページを直接確認することをお勧めします。より詳細なコードと説明があります。
実際のパフォーマンスは?データは語る
もちろん、口で言うのは簡単です。複数のベンチマークにおいて、GLM-Imageは強力な競争力を示しています。
- 文字レンダリング: LongText-Benchテストでは、英語でも中国語でも、GLM-Imageのスコアはトップクラスであり、多くのクローズドソースおよびオープンソースの競合他社(Seedream、Qwen-Imageなど)を打ち負かしました。
- 指示の追従: DPG Benchでは、エンティティ(Entity)、属性(Attribute)、関係(Relation)の理解において非常に高い精度に達しました。
- 画像編集: ゼロからの生成に加えて、正確な画像編集やスタイル変換もサポートしています。これは、参照画像のVAE latentsを追加の条件入力として使用し、元画像の高周波の詳細を保持できるためです。
自分で試してみたい場合は、HuggingFaceでその威力を体験できます。
結論:オープンソース画像生成の次のステージ
GLM-Imageの出現は、オープンソース画像生成モデルがより「分別のある」段階に入ったことを示しています。私たちはもはや、単に見栄えの良い画像を生成するだけでは満足せず、AIが複雑な論理を理解し、文字情報を正確に伝え、プロフェッショナルなワークフローで役割を果たすことを求め始めています。
開発者であれデザイナーであれ、GLM-Imageは強力な新しいツールを提供します。それは、巧みなアーキテクチャ設計を通じて、AIにアーティストの感性とエンジニアの理性の両方を持たせることが十分に可能であることを証明しました。
このプロジェクトをさらに深く知りたい方は、Tech Blogで一次研究情報をチェックすることをお忘れなく。
よくある質問 (FAQ)
Q1:GLM-Imageは完全にオープンソースですか?商用利用は可能ですか? GLM-Imageはオープンソースプロジェクトです。これは初の産業グレードの離散自己回帰画像生成モデルです。具体的なライセンス条項については、GitHubページ上のLicense説明を参照することをお勧めします。通常、このようなオープンソースプロジェクトは学術研究には非常に友好的ですが、商用利用には特定の契約を確認する必要があります。
Q2:GLM-Imageを実行するにはどのようなハードウェア構成が必要ですか? GLM-Imageは90億パラメータの自己回帰モデルと70億パラメータの拡散デコーダーを含むハイブリッドアーキテクチャを採用しているため、全体のパラメータ数は大きいです。公式に最適化されていますが、スムーズに推論を実行するには、特に高解像度生成の場合、少なくともハイエンドのコンシューマー向けグラフィックカード(RTX 3090/4090など)またはエンタープライズグレードのGPUが必要になると推測されます。
Q3:MidjourneyやStable Diffusionとは何が違いますか? Stable Diffusionのような純粋な拡散モデルと比較して、GLM-Imageの利点は「複雑な意味」と「文字レンダリング」の理解が強いことです。Stable Diffusionは文字生成を支援するためにControlNetなどのプラグインに依存する必要があるかもしれませんが、GLM-Imageはこの機能をネイティブに備えています。Midjourneyと比較すると、GLM-Imageはオープンソースであり、独自のサーバーにデプロイしてより高い制御性を持つことができます。
Q4:GLM-Imageは日本語や中国語のプロンプトをサポートしていますか? はい、GLM-Imageは多言語能力を考慮して設計されており、特に文字レンダリングにおいてGlyph-byT5を導入しているため、漢字を含むコンテンツの生成と理解に対して優れたサポートを提供します。これは現在のオープンソースモデルの中では稀有な利点です。
Q5:画像を生成する際に文字がまだ間違っている場合はどうすればよいですか? GLM-Imageの文字レンダリング能力は強力ですが、AIは時々間違いを犯します。プロンプトを調整し、生成する必要がある文字を引用符で明確にマークするか、複数回生成して最適な結果を選択することをお勧めします。自己回帰の特性のおかげで、純粋なランダム拡散モデルよりも明確な指示を理解する点では通常より従順です。


