画像生成AIの情報まとめ

2023/4/13 8:472023/12/3 19:22

⚠️

個人用のメモなので一部不正確な情報を含むかもしれません

Stable Diffusion web UIを試してみた2023/4/4 11:392023/6/6 11:58

画像生成モデル変分オートエンコーダー（VAE）敵対的生成ネットワーク（GAN）フローベース生成モデル拡散モデル（Diffusion Model）主要な画像生成AIサービス DALL-E 2021/1/5 GLIDE 2021/12/20 DALL-E 2 2022/4/6 Imagen 2022/5/24 Parti 2022/6/22 Midjourney 2022/7/13 Stable Diffusion 2022/8/23 にじジャーニー 2022/11/15 Muse 2023/1/2 追加学習の手法 ControlNet 2023/2/10 Dreambooth LoRA LoCon 参考

画像生成モデル

変分オートエンコーダー（VAE）

入力→特徴量に圧縮→元のデータに戻す過程で生成

敵対的生成ネットワーク（GAN）

生成器（ジェネレーター）と識別機（ディスクリミネーター）が切磋琢磨して精度の高い画像を生成

フローベース生成モデル

尤度が求められる

尤度を最大化することで精度を高める

逆変換が可能

生成時に潜在変数からデータに向かってfiが順番に適用されていく

[1] L. Weng. "Flow-based Deep Generative Models"

参考

深層生成モデルを巡る旅(1): Flowベース生成モデル - Qiita

はじめに Flowベース生成モデルという深層生成モデルをご存知でしょうか？他の深層生成モデルであるGANやVAEなどと比べると知名度は劣りますが, 以下のような特徴があります. データの尤度が求められるその尤度を直接最...

https://qiita.com/shionhonda/items/0fb7f91a150dff604cc5#flowの基本

拡散モデル（Diffusion Model）

流行ってるやつ

元データにノイズを加えていくプロセスを逆転させてモデル化する手法

主要な画像生成AIサービス

DALL-E 2021/1/5

GitHub - openai/DALL-E: PyTorch package for the discrete VAE used for DALL·E.

PyTorch package for the discrete VAE used for DALL·E. - GitHub - openai/DALL-E: PyTorch package for the discrete VAE used for DALL·E.

https://github.com/openai/DALL-E

OpenAIによる画像生成AI

大規模言語モデル「GPT-3」を応用している

VQ-VAE(Discrete VAE)モデルベース

インストールするかweb上で利用できる

GLIDE 2021/12/20

GitHub - openai/glide-text2im: GLIDE: a diffusion-based text-conditional image synthesis model

GLIDE: a diffusion-based text-conditional image synthesis model - GitHub - openai/glide-text2im: GLIDE: a diffusion-based text-conditional image synthesis model

https://github.com/openai/glide-text2im

OpenAIによる画像生成AI

インストールして利用できる

DALL-Eを超えたらしい

Diffusion Model（拡散モデル）ベース

DALL-E 2 2022/4/6

DALL·E 2

DALL·E 2 is an AI system that can create realistic images and art from a description in natural language.

https://openai.com/product/dall-e-2

OpenAIによる画像生成AI

Diffusion Model（拡散モデル）ベース

画像に加えたノイズを除去して元画像を復元する事を学習をする

Web上で利用できる

Imagen 2022/5/24

Imagen: Text-to-Image Diffusion Models

https://imagen.research.google/

Googleによる画像生成AI

テキストから画像生成できる

クオリティの評価指標FIDにおいてDALL-E 2よりも高い評価を得ている

一般公開はなし

Parti 2022/6/22

Googleによる画像生成AI

自己回帰モデルとGANを採用

一般公開はなし

Midjourney 2022/7/13

Midjourney

An independent research lab exploring new mediums of thought and expanding the imaginative powers of the human species.

https://www.midjourney.com/home/?callbackUrl=/app/

テキストから画像を生成するサービス

英語のみ利用可能
単語よりも文章の方が精度が高いらしい

Discord上で利用できる

現在無料トライアル中止
有償プランは月10ドル/30ドル

バージョンはV1からV5まで

V5は画像入力に対応し、手の生成も自然に

技術詳細は非公開？

恐らくは拡散モデルベースらしい

参考

[スタパ齋藤のApple野郎] 画像生成AI「Midjourney」をiPhoneやiPadで使い倒す!!!

ChatGPT登場後、さまざまなAIを試している俺。毎日のようにAIで遊んで時間が超溶けている感じだが、最近とくに凄いと感じられるのが画像生成AI（お絵描きAI）の「Midjourney（ミッドジャーニー）」だ。

https://k-tai.watch.impress.co.jp/docs/column/stapaapple/1492789.html

Stable Diffusion 2022/8/23

拡散モデルの画像生成AI

DreamStudioというウェブサイト上で利用できる

DreamStudio

https://beta.dreamstudio.ai/generate

オープンソースとしても公開されている

GitHub - CompVis/stable-diffusion: A latent text-to-image diffusion model

A latent text-to-image diffusion model. Contribute to CompVis/stable-diffusion development by creating an account on GitHub.

https://github.com/CompVis/stable-diffusion

Latent diffusion（潜在拡散）という技術を導入することで、少ないメモリーでの動作と高速な処理が可能になっている

ライセンスを明記することにより営利・非営利を問わず使用でき、ユーザー自身が生成画像に関する権利を持てる

AUTOMATIC1111氏の「Stable Diffusion web UI」というものがあるらしい

にじジャーニー 2022/11/15

MidjourneyとSpellbrushのコラボ

二次元イラスト特化のイラストAI

Discordで使える

にじジャーニー

魔法でイラストをつくろう

https://nijijourney.com/ja/

Muse 2023/1/2

Googleのテキスト画像生成AI

Stable Diffusion 1.4と同品質で高速化

一般公開はなし

追加学習の手法

ControlNet 2023/2/10

ポーズ指定をして画像生成をできる技術

Stable Diffusion向けの拡張機能が登場している

Dreambooth

精度が高い

高スペックなPC環境が必要

LoRA

Low-Rank Adaptation

特定の要素について学習させたデータで追加学習させる手法の一種

比較的低スペックな環境でも利用できる

モデルデータを配布してくれている人たちがいる

Stable Diffusion向けのデータが多い？

LoCon

LoRAの改良版

まだあんまり情報がないらしい

参考

2022年は「画像生成AI元年」？「GAN」の発表から「Stable Diffusion」登場までを振り返る | DIAMOND SIGNAL

2022年に入って立て続けに、Googleや新興のAI開発企業から「画像生成AI」が発表・公開されている。では、この画像生成AIはいったい、どのような研究・開発を経ていま花開こうとしているのだろうか。今回は2014年に発表され画像分野のAI研究に大きな影響を与えた「GAN（敵対的生成ネットワーク）」から、Stable Diffusionの登場に至るまでの経緯を駆け足で振り返る。

https://signal.diamond.jp/articles/-/1410

MidjourneyやStable Diffusionなどの画像生成AIの仕組みについて｜IT navi｜note

以前、「最近、人工知能による自然言語処理が爆発的に進化しているのでまとめてみた。」という記事の中で、DALL-E2、Imagen、Partiなどのテキスト(文字情報)から画像生成するAIについて解説したのですが、その後、Midjourneyや DreamStudio（Stable Diffusion）などの新しい画像生成AIが次々と公開されて、世間が盛り上がってきましたので、新しい情報を追加してまとめ直すことにしました。１．4種類の画像生成モデル　一般的に、ディープラーニングを利用して自動的に画像を生成する画像生成モデルとしては、大きく分けて以下の4種類

https://note.com/it_navi/n/ne238a3253b11

【AIイラスト】8つの追加学習の方法と違い紹介【キャラ似せ/人工知能】

2023年3月で追加学習の手法は8つあります。重いけど一番綺麗に出るDreambooth、軽く一般向けの方法LoRA、その進化系のLoConやLoHAは今後に期待。これらの違いと特徴について解説。これからキャラを学習させたいけど何を使えばいいか分からない方向け。

https://signyamo.blog/ai_add_learning/#toc6

Xでポスト

人生/🌿趣味まとめ/画像生成AIの情報まとめ