画像生成AIの情報まとめ
個人用のメモなので一部不正確な情報を含むかもしれません
画像生成モデル変分オートエンコーダー(VAE)敵対的生成ネットワーク(GAN)フローベース生成モデル拡散モデル(Diffusion Model)主要な画像生成AIサービスDALL-E 2021/1/5 GLIDE 2021/12/20 DALL-E 2 2022/4/6 Imagen 2022/5/24 Parti 2022/6/22 Midjourney 2022/7/13 Stable Diffusion 2022/8/23 にじジャーニー 2022/11/15 Muse 2023/1/2 追加学習の手法ControlNet 2023/2/10 DreamboothLoRALoCon参考
画像生成モデル
変分オートエンコーダー(VAE)
- 入力→特徴量に圧縮→元のデータに戻す過程で生成
敵対的生成ネットワーク(GAN)
- 生成器(ジェネレーター)と識別機(ディスクリミネーター)が切磋琢磨して精度の高い画像を生成
フローベース生成モデル
- 尤度が求められる
- 尤度を最大化することで精度を高める
- 逆変換が可能
- 生成時に潜在変数からデータに向かってfiが順番に適用されていく
- 参考
拡散モデル(Diffusion Model)
- 流行ってるやつ
- 元データにノイズを加えていくプロセスを逆転させてモデル化する手法
主要な画像生成AIサービス
DALL-E 2021/1/5
- OpenAIによる画像生成AI
- 大規模言語モデル「GPT-3」を応用している
- VQ-VAE(Discrete VAE)モデルベース
- インストールするかweb上で利用できる
GLIDE 2021/12/20
- OpenAIによる画像生成AI
- インストールして利用できる
- DALL-Eを超えたらしい
- Diffusion Model(拡散モデル)ベース
DALL-E 2 2022/4/6
- OpenAIによる画像生成AI
- Diffusion Model(拡散モデル)ベース
- 画像に加えたノイズを除去して元画像を復元する事を学習をする
- Web上で利用できる
Imagen 2022/5/24
- Googleによる画像生成AI
- テキストから画像生成できる
- クオリティの評価指標FIDにおいてDALL-E 2よりも高い評価を得ている
- 一般公開はなし
Parti 2022/6/22
- Googleによる画像生成AI
- 自己回帰モデルとGANを採用
- 一般公開はなし
Midjourney 2022/7/13
- テキストから画像を生成するサービス
- 英語のみ利用可能
- 単語よりも文章の方が精度が高いらしい
- Discord上で利用できる
- 現在無料トライアル中止
- 有償プランは月10ドル/30ドル
- バージョンはV1からV5まで
- V5は画像入力に対応し、手の生成も自然に
- 技術詳細は非公開?
- 恐らくは拡散モデルベースらしい
- 参考
Stable Diffusion 2022/8/23
- 拡散モデルの画像生成AI
- DreamStudioというウェブサイト上で利用できる
- オープンソースとしても公開されている
- Latent diffusion(潜在拡散)という技術を導入することで、少ないメモリーでの動作と高速な処理が可能になっている
- ライセンスを明記することにより営利・非営利を問わず使用でき、ユーザー自身が生成画像に関する権利を持てる
- AUTOMATIC1111氏の「Stable Diffusion web UI」というものがあるらしい
にじジャーニー 2022/11/15
- MidjourneyとSpellbrushのコラボ
- 二次元イラスト特化のイラストAI
- Discordで使える
Muse 2023/1/2
- Googleのテキスト画像生成AI
- Stable Diffusion 1.4と同品質で高速化
- 一般公開はなし
追加学習の手法
ControlNet 2023/2/10
- ポーズ指定をして画像生成をできる技術
- Stable Diffusion向けの拡張機能が登場している
Dreambooth
- 精度が高い
- 高スペックなPC環境が必要
LoRA
- Low-Rank Adaptation
- 特定の要素について学習させたデータで追加学習させる手法の一種
- 比較的低スペックな環境でも利用できる
- モデルデータを配布してくれている人たちがいる
- Stable Diffusion向けのデータが多い?
LoCon
- LoRAの改良版
- まだあんまり情報がないらしい