テキストから画像を生成するモデルを、特定のオブジェクトの画像(3〜5枚程度)でファインチューニングすることによって、テキストで指定して特定のオブジェクトを画像生成できる Dream Booth という技術を紹介したブログの内容を試してみました。


用意した画像は安定のクロネコ様。正方形を用意する必要があるとのことでしたので、512 x 512の画像にトリミングしました。
ダウンロード (2).png 1.15 MB
学習はGoogle Colabで約30分ほどかかりました。まずは呪文に指定したオブジェクト名のみで生成してみます。
スクリーンショット 2022-10-25 19.52.44.png 2.9 MB
アゴとお胸にある白い部分の再現性が高かったです!    次は呪文を工夫して少し遊んでみました。
スクリーンショット 2022-10-25 20.03.00.png 4.81 MB
ネコ様だらけですみません!

少ないデータで特定のオブジェクトを指定できるようになると、img2imgとはまた違った応用の可能性がありそうです。