FASHN VTON v1.5は、Apache-2.0ライセンスを採用した新しいオープンソースのバーチャル試着AIモデルで、商用利用も可能です。このモデルの最大の特徴は、従来の潜在空間ではなく「ピクセル空間」で画像を直接生成することで、衣服の素材感をより詳細に保持できる点です。さらに素晴らしいことに、わずか8GBのVRAMを搭載した一般向けGPUで動作します。この記事では、その技術アーキテクチャ、利点、そしてインストールと使用方法について詳しく解説します。
ネットで服をよく買う人にとって最大の悩みは、「この服、自分が着たらどう見えるんだろう」という点に尽きるでしょう。バーチャル試着(Virtual Try-On、略してVTON)技術は以前から存在していましたが、これまでのソリューションは2つの極端な問題を抱えていました。効果は絶大だが高価な計算能力を必要とするクローズドソースの商用ソフトウェアか、効果はそこそこでインストールが複雑なオープンソースプロジェクトか、です。
最近、FASHN AIチームが FASHN VTON v1.5 をリリースしましたが、これこそが開発者やECプラットフォームが探し求めていたバランスポイントかもしれません。このモデルはオープンソース(Apache-2.0ライセンス)であるだけでなく、一般的なゲーミンググラフィックボードでも動作します。これが何を意味するかというと、高品質なバーチャル試着技術はもはやテック巨人の特許ではなく、中小の開発者や個人の愛好家でも家庭用PCにこの技術を導入できるようになったのです。
このモデルの何が特別なのか、なぜ他とは異なる技術的アプローチを選んだのか、そして実際の応用でどのようなパフォーマンスを発揮するのか、詳しく見ていきましょう。
ぼやけた細部にさようなら:ピクセル空間生成の利点
FASHN VTON v1.5について語る前に、現在の主流なAI生成技術について触れておく必要があります。拡散モデル(Diffusion Models)に基づく画像の生成ツールの多くは、計算リソースを節約するために、変分オートエンコーダ(VAE)を使用して画像を「潜在空間(Latent Space)」に圧縮して処理します。これは高速ですが、画像を低画質のJPEGとして保存するようなもので、解凍後に多くの微細なディテールが失われがちです。
FASHN VTON v1.5は異なる道を選びました。RGBピクセル空間(Pixel Space) で直接操作を行うのです。技術用語の違いに聞こえるかもしれませんが、ファッション業界にとっては天と地ほどの差があります。衣服の繊細な質感、複雑な柄、あるいはブランドロゴの文字などが、エンコード圧縮によってぼやけることがないのです。
この手法は12x12のパッチ埋め込み(Patch Embedding)を採用しており、VAEエンコーディングによる情報の損失を完全に排除しています。バーチャル試着後の服がぼやけた色の塊のように見えてがっかりした経験があるなら、このピクセルレベルの生成技術は、まさにその問題を解決するために生まれたものです。
マスク不要の推論:服を自然に「着る」
従来のバーチャル試着モデルは通常、「マスク(Mask)」を必要としていました。つまり、人やアルゴリズムが事前に「ここは体、ここは服、この領域に服を入れてください」と指定する必要がありました。このやり方の最大の欠点は、新しい服の形状が古い服の輪郭に制限されてしまうことです。ダウンジャケットを着ている状態で体にフィットするベストを試着しようとした場合、従来のモデルでは処理に困ったり、生成された画像が非常に不自然に見えたりすることがよくありました。
FASHN VTON v1.5は マスクレス推論(Maskless Inference) メカニズムを導入しました。事前にマスクを分割する必要はなく、モデルが自ら服と体の境界を学習します。これにより、衣服はモデルが元々着ていた服の形状に制限されることなく、自然なドレープや形態を見せることができます。
さらに重要なのは、この処理方法が「身体的特徴」を保持するのに非常に効果的だという点です。モデルのタトゥーや本来の体型、あるいは着用している文化的衣装(ヒジャブなど)であっても、着替えの過程で完全に保持されます。リアリティを追求し、多様な文化を尊重するファッションアプリケーションにとって、これは大きな進歩です。
親しみやすいハードウェア要件:一般向けGPUへの福音
AIモデルといえば、ハードウェアの敷居が懸念されがちです。A100のようなエンタープライズ級のグラフィックボードが必要と言われると、多くの開発者は二の足を踏んでしまいます。FASHN VTON v1.5はこの点において非常に誠実です。
公式データによると、このモデルのパラメータは約9.72億(972M)で、推論(Inference)段階では約 8GBのVRAM しか必要としません。これはつまり、NVIDIA RTX 30シリーズや40シリーズの中〜上位ゲーミンググラフィックボードを持っていれば、このモデルをスムーズに動かせることを意味します。
効率の面では、NVIDIA H100のような最上位ハードウェアで実行した場合、1枚の画像生成にかかる時間はわずか約5秒です。予算が限られているチームにとっても、低コストのクラウドGPUやローカルマシンでこのフローを実行できることは、AIアプリケーションの実装コストを大幅に下げることにつながります。開発チームによれば、このモデルのトレーニング総コストはわずか5,000〜10,000ドルだったとのことで、トレーニングコストが数百万ドルに達することも珍しくない今のAI業界において、これは新鮮な驚きです。
技術アーキテクチャ解析:MMDiTの力
FASHN VTON v1.5のコアアーキテクチャは MMDiT(マルチモーダル拡散Transformer) に基づいています。これは、複数の入力信号を処理するために特別に設計されたアーキテクチャです。バーチャル試着のシーンでは、モデルは「人物写真」と「衣服写真」という2つの異なる視覚情報を同時に理解し、それらを完璧に融合させる必要があります。
モデルの入力は主に3つの部分で構成されています:
- 人物画像(Person Image): 試着を行うモデルの写真です。
- 衣服画像(Garment Image): モデルが着用している展示写真でも、平置きの商品画像(Flat-lay)でも構いません。
- カテゴリ(Category): トップス(tops)、ボトムス(bottoms)、ワンピース(one-pieces)のどれであるかをモデルに伝えます。
さらに、モデル内部ではDWPoseを統合して姿勢のキーポイントを自動的に抽出します。この部分はプロセスによって自動処理されるため、ユーザーが気にする必要はありません。このエンドツーエンドの設計により、開発者は画像を準備するだけでよく、残りの複雑な計算はすべてモデルに任せることができます。
正直な限界と今後の展望
もちろん、完璧な技術など存在しません。FASHNチームは現在の限界についても非常に率直にリストアップしています。まず 解像度の問題 です。現在の出力解像度は576x864です。これはスマートフォンのECアプリやSNSでの共有には十分鮮明ですが、大型ポスターの印刷などに使用するには少し物足りないかもしれません。これは主にピクセル空間生成の計算量の制約によるもので、これほど多くのピクセルを直接計算するのは非常に負荷がかかるためです。
次に、マスクレス推論は様々な衣服によく適応しますが、極端なケース(例えば長袖の厚手コートからノースリーブのキャミソールへの着替えなど)では、元の服の痕跡が稀に残ることがあります。また、体型の保持に関しても、合成プロセスによってはわずかなズレが生じる可能性があります。
とはいえ、オープンソースプロジェクトとして見れば、これらの欠点はその輝きを曇らせるものではありません。開発者コミュニティの力は強大です。コードが公開されたことで、すぐに多くの専門家がこれらの問題に対する最適化案を提示したり、アップスケーリング(Upscaling)アルゴリズムを使って解像度の問題を解決したりするでしょう。
始め方
FASHN VTON v1.5を試してみたい開発者にとって、入門は非常に簡単です。GitHubで完全なコードを見つけるか、Hugging Faceでモデルの重みを直接ダウンロードできます。
簡単なインストール手順は以下の通りです:
- GitHubからプロジェクトコードをクローンする。
- 必要なPython依存パッケージをインストールする。
- スクリプトを実行してモデルの重み(約2GB)やDWPoseなどの補助モデルをダウンロードする。
Pythonでの呼び出しも非常に直感的で、TryOnPipelineを初期化し、人物と衣服の画像を読み込んで推論を実行するだけです。公式チームは詳細な GitHubリポジトリ と Hugging Faceページ も提供しており、参考になります。
よくある質問 (FAQ)
Q:FASHN VTON v1.5を動かすにはどのようなPCスペックが必要ですか?
A:少なくとも8GBのVRAMを搭載したNVIDIAグラフィックボードが必要です。モデルはデフォルトで bfloat16 精度を使用して加速するため、Ampereアーキテクチャ以降のグラフィックボード(RTX 30xx、40xxシリーズやA100、H100など)の使用が推奨されます。
Q:このモデルは商用プロジェクトで無料で使用できますか? A:はい。FASHN VTON v1.5は Apache-2.0ライセンス を採用しています。これは非常に寛容なオープンソースライセンスであり、修正、配布、商用利用が許可されています。試着アプリを構築したいスタートアップ企業にとっては大きなメリットです。
Q:どのような種類の衣服の試着に対応していますか? A:現在、モデルは3つの主要カテゴリをサポートしています:トップス(Tシャツ、シャツなど)、ボトムス(パンツ、スカートなど)、ワンピース(ドレス、ジャンプスーツなど)。
Q:なぜ生成画像の解像度は576x864なのですか? A:これは「生成品質」と「計算コスト」のバランスを取るためです。モデルがピクセル空間で直接動作するため、解像度を上げると計算量が指数関数的に増加します。ただし、ほとんどのモバイルアプリにとってはこの解像度で十分であり、画質を向上させるために後処理で超解像モデル(Super Resolution)を併用することも可能です。
Q:自分でマスク(Mask)を描く必要はありますか? A:いいえ。モデルはデフォルトで「マスクレスモード(Segmentation-free mode)」で動作します。衣服と人物の特徴に基づいて自動的に合成を行うため、服の変形やドレープ感がより自然になります。


