画像生成AIの情報まとめ

⚠️
個人用のメモなので一部不正確な情報を含むかもしれません
Stable Diffusion web UIを試してみた2023/4/13 2:392023/6/3 2:58
 
 

画像生成モデル

変分オートエンコーダー(VAE)

  • 入力→特徴量に圧縮→元のデータに戻す過程で生成

敵対的生成ネットワーク(GAN)

  • 生成器(ジェネレーター)と識別機(ディスクリミネーター)が切磋琢磨して精度の高い画像を生成

フローベース生成モデル

  • 尤度が求められる
    • 尤度を最大化することで精度を高める
  • 逆変換が可能
  • 生成時に潜在変数からデータに向かってfiが順番に適用されていく
[1] L. Weng. "Flow-based Deep Generative Models"
[1] L. Weng. "Flow-based Deep Generative Models"

拡散モデル(Diffusion Model)

  • 流行ってるやつ
  • 元データにノイズを加えていくプロセスを逆転させてモデル化する手法
 

主要な画像生成AIサービス

DALL-E 2021/1/5

  • OpenAIによる画像生成AI
  • 大規模言語モデル「GPT-3」を応用している
  • VQ-VAE(Discrete VAE)モデルベース
  • インストールするかweb上で利用できる

GLIDE 2021/12/20

  • OpenAIによる画像生成AI
  • インストールして利用できる
  • DALL-Eを超えたらしい
  • Diffusion Model(拡散モデル)ベース

DALL-E 2 2022/4/6

  • OpenAIによる画像生成AI
  • Diffusion Model(拡散モデル)ベース
    • 画像に加えたノイズを除去して元画像を復元する事を学習をする
  • Web上で利用できる

Imagen 2022/5/24

  • Googleによる画像生成AI
  • テキストから画像生成できる
  • クオリティの評価指標FIDにおいてDALL-E 2よりも高い評価を得ている
  • 一般公開はなし

Parti 2022/6/22

  • Googleによる画像生成AI
  • 自己回帰モデルとGANを採用
  • 一般公開はなし

Midjourney 2022/7/13

  • テキストから画像を生成するサービス
    • 英語のみ利用可能
    • 単語よりも文章の方が精度が高いらしい
  • Discord上で利用できる
    • 現在無料トライアル中止
    • 有償プランは月10ドル/30ドル
  • バージョンはV1からV5まで
    • V5は画像入力に対応し、手の生成も自然に
  • 技術詳細は非公開?
    • 恐らくは拡散モデルベースらしい

Stable Diffusion 2022/8/23

  • 拡散モデルの画像生成AI
  • Latent diffusion(潜在拡散)という技術を導入することで、少ないメモリーでの動作と高速な処理が可能になっている
  • ライセンスを明記することにより営利・非営利を問わず使用でき、ユーザー自身が生成画像に関する権利を持てる
  • AUTOMATIC1111氏の「Stable Diffusion web UI」というものがあるらしい

にじジャーニー 2022/11/15

  • MidjourneyとSpellbrushのコラボ
  • 二次元イラスト特化のイラストAI
  • Discordで使える

Muse 2023/1/2

  • Googleのテキスト画像生成AI
  • Stable Diffusion 1.4と同品質で高速化
  • 一般公開はなし
 

追加学習の手法

ControlNet 2023/2/10

  • ポーズ指定をして画像生成をできる技術
  • Stable Diffusion向けの拡張機能が登場している

Dreambooth

  • 精度が高い
  • 高スペックなPC環境が必要

LoRA

  • Low-Rank Adaptation
  • 特定の要素について学習させたデータで追加学習させる手法の一種
  • 比較的低スペックな環境でも利用できる
  • モデルデータを配布してくれている人たちがいる
    • Stable Diffusion向けのデータが多い?

LoCon

  • LoRAの改良版
  • まだあんまり情報がないらしい

参考