2022年はStable DiffusionやMidjourney、OpenAIのDALL・E2、GoogleのImagenなどテキストから画像を生成するDiffusion Modelが話題となりました。テキストと画像を両方処理するマルチモーダルな研究はNeurIPS 2022でも盛んに行われていました。
連載記事2本目では、Diffusion Model/Imagenについて解説していきます。
Diffusion Model(Imagen)
Imagenの論文は、2022年5月にはArXivに公開されていましたが、NeurIPS 2022でもOutstanding Paper Awardsを受賞していました。Diffusion Modelとは元画像群のサンプルに少しずつGaussianノイズを混入していき(forward diffusion)、画像を完全なノイズ(pure noise)になるまで破壊したあと、そこから元画像を復元する(Reverse diffusion)プロセスにより訓練された生成モデルを示します。Imagen論文での主なコントリビューションは、以下6点です。
- テキストコーパスのみで事前学習させたText-To-Textの深層学習モデルT5の重みをフリーズさせて用いるだけでもText-To-Imageの画像生成タスクに有効である。
- T5のモデルサイズは、diffusionモデルのサイズよりも精度に影響がある。
- Imagenでは、Thresholding Diffusion Sampler(提案手法)により、訓練データとテストデータの分布の違いにより彩度が高い不自然な画像が生成されるのを抑止できるようになる。
- Efficient U-Net(提案手法)は計算効率がよく・メモリにやさしく・収束計算が高速なアーキテクチャである。
- COCOベンチマークで当時のSoTA(State Of The Art:ベストスコア)を達成。
- Text-To-Imageの更に包括的なフレームワークDrawBenchも提案。
Imagenにより生成された画像は写実的画像(photorealistic image)であり、見るものを虜にします。
例えば、Imagenに「赤いフランス王室のガウンを着たタヌキの女王を描いた荘厳な油絵です。壁紙で飾られた華やかな壁に掛けられている。」というテキストを入力して生成される画像が、下記です。画像を見てからテキストを見ると、実に言い当て妙な説明だと感じますが、Imagenでは、なんと、このテキストを入力して以下画像を生成したのです。
(画像取得元)https://imagen.research.google/
テキストを入力したときに、その文が紡ぎ出す非常に繊細な表現を捉えて、その画像的な意味合いの解釈を行い、細部まで臨場感のあるタッチで描写したように感じます。テキストコーパスにおいて、リッチな表現を学習したT5を用いると、与えられたテキストプロンプトの解釈が非常に精緻に行われている証拠です。
蛇足ですが、The Informationによると、DALL・E2を提案したOpenAIと、MicrosoftはChatGPTを検索エンジンに組み込む計画があり、早ければ2023年3月末には搭載されるそうです。Googleのマネジメント層は全社員に警鐘を鳴らしており、これから検索エンジンの「概念」が変わる可能性があります。
NeurIPS 2022では、本記事で紹介したImagen以外にもGoogle研究チームからのたくさんの発表がありました。Google傘下のDeepmindは、よりcitationに特化したSparrowを開発中であり、2023年中にベータ版をリリースする予定ということですが、Googleは他にも多くの自然言語処理に関わる研究開発を進行中であり、反撃がどのようなものになるのか動向に注目したいと思います。
本記事では、Diffusion Model(Imagen)について紹介しました。ベクストでは、Text-To-Textの深層学習モデル(生成モデル)を知識生成に活用した製品、知識+を提供させていただいております。
2023年2月にマイナーバージョンアップを予定しております。宝の山である大量のテキストをお持ちの方、社内ナレッジをもっと活用したい、可視化したい、という方は一度当社までお問い合わせいただけますと幸いです。