徳和貴成_core.member

2025/03/17 02:25

Gemini 2.0 Flash (Image Generation) Experimentalで同じキャラクターが登場させられるか試してみた

@Y.Miyado さんの記事を読み、Gemini 2.0 Flash (Image Generation) Experimentalで画像生成で同じキャラクターが登場させられる！との事で、居ても立っても居られなくなり試してみました！

https://cdle.jp/blogs/b1f47cd12e5b

CDLE名古屋

Geminiの生成画像の一貫性がレベチなので味噌カツを食べ...

Y.Miyado

2025/03/16 19:01

※そんなY.Miyadoさんにも投稿いただいているCDLE名古屋をぜひフォローしよう！（宣伝）

では、どんなキャラクターを描かせようか？
という、ところなのですが…私がAIに書かせた小説の登場人物で、それなりにキャラ立ちしてる（私としては）お馴染みの「星間の約束」のゼリエリアさんにしました！

https://note.com/t_tokuwa/n/nb38371bed74f

Gemini（BARD）で生成した英語の小説をGPT-4で翻訳・編集【星間の約束】｜徳和貴成

はじめに Gemini（BART）が公開とのことで、さっそく物語がどれぐらい生成できるか試してみました。英語のみでの公開のため、GPT-4で日本語に直したりエピソードを増やしたりを行ってます。私のように、小説が全く書けないタイプが、AIを使って小説を書き上げたらどのような話となるのか？ぜひ、読んで確かめてみてください。 ※この物語はフィクションであり、実在の人物・団体とは一切関係ありません。作品に登場する用語や技術についても同様となります。「星間の約束」第１話：夏の夜の流れ星夏の夜、蝉の合唱が鳴り響く中、13歳の少年・裕太は家の庭で星空を眺めていた。星々がきらめく

note.com

DALL-E3で描くと下記のような感じのキャラクターですね！

zeri3.png 4.8 MB

zeri11.png 4.55 MBGemini 2.0 Flash (Image Generation) Experimentalは無料で、下記場所で使えます！

https://aistudio.google.com/

Google AI Studio

Google AI Studio is the fastest way to start building with Gemini, our next generation family of multimodal generative AI models.

aistudio.google.com

まずは、下記の記事を元に作成した、「ゼリエリアさんの見た目のJSONプロンプト」を持っていますので、そちらで試して行こうと思います。

https://note.com/t_tokuwa/n/n879e808a45bf

DALL-E3のプロンプトを構造化し、キャラクターを自在に操る｜徳和貴成

DALL-E3いいですよね！これだけ素晴らしいと小説の挿絵や漫画とかに使いたくなりますが…結構大きな問題があります。「同じキャラクターが作れない！」小説や漫画の場合は結構致命的です。沢山生成して選んでいく事になりますが、生成に時間がかかるので、相当なストレスになります。これを何とかしよう！という考察になります。なぉ、この記事は「ChatGPT plus」を利用している事が前提になりますのでご了承下さい。まずは、プロンプトをどうするか？ですが、過去に私が書いたブログでこんな文章を見つけました。「言葉は伝え方と受け取り方次第で誤解を生みますが、プログラムは書かれた通り

note.com

…で、試したのですが…

IMG_2273.jpeg 5.64 KB何か変なマークが表示されました。

なんだこれ？

開いてみましょう…
IMG_2272.jpeg 30.84 KB
…えっと、安全じゃないとか、そんなこと言ってます。
あぁ、久々のGeminiさんでしたが…確かにGeminiさんは、そんな面倒な感じでしたよね。

非常に安全な絵を描いてもらってるはずなので、何度かリトライしました。
…したのですが…全く生成してくれないので諦めました。

イライラしたので、とりあえず…👎
IMG_2274.jpeg 5.58 KB
何となくですが、服装の指示を与えるとダメっぽい気がします。こんな感じでプロンプトをJSONではなく、英語の文として服装の指示を減らして入力してみます。

A highly detailed, semi-realistic anime-style illustration of a young female character named Zerielia, depicted in a wide-format composition. She has a petite stature and fair skin, with a mysterious aura. Her eyes are round and captivating—her right eye is a deep blue with a starry sparkle, while her left eye is a soft pink with the same celestial effect. She has a small, rounded nose and slightly parted lips with a pale pink hue. Her silver eyebrows arch gently above her expressive eyes.

Her long, wavy hair flows past her waist, colored silver with a mesmerizing galaxy-like gradient that shifts between deep blues, purples, and soft pinks. A few strands float as if defying gravity. Her bangs sweep delicately to the side, partially framing her face. On the left side of her hair, she wears a cluster of star-shaped ornaments and delicate beads, resembling a miniature galaxy. A small star-shaped earring adorns her left ear.

The background is a dreamy cosmic scene, filled with softly glowing nebulas and distant twinkling stars, harmonizing with her celestial theme. The art style is semi-realistic anime, with finely detailed textures, soft yet dynamic lighting, and a slightly ethereal atmosphere.

試しみたところ…何か絵が作成されたっぽいです！

Generated Image March 16, 2025 - 10_19PM.png.jpeg 251.8 KB
えっと…ブラックメタル系のバンドの方でしょうか？

ずいぶん予想とは違いましたが、宇宙的な輝きは無いものの、髪の毛の色や目の色、背景なんかも良い感じです。好みの絵か？と問われると…？

宇宙的要素が悪かったのかもしれません。「喫茶店でコーヒーを飲んでいる」って指示してみましょう！

Generated Image March 16, 2025 - 10_21PM.png 2.jpeg 258.09 KB
おぉ！背景が宇宙ですが、良い感じです！
…でも、目の色が逆になってしまいました。画像生成はDALL-E3もそうですが、左右を正しく認識できない感じですね。

とりあえず、宇宙から離れたいので、「桜の花が満開の公園を歩いている」と入力してみましょう。
きっと、楽しそうに公園を歩いている絵が作成され…
Generated Image March 16, 2025 - 10_24PM.png.jpeg 329.88 KB…
……って、なんでしょうか？これは？

ひょっとしたら、場所しか指定していなかったのがダメだったのかもしれません。
「お前の指示には主語がない！」って怒られたのかもですね。ならば…

「ゼリエリアが桜が満開の道を両足で歩いている」

これならどうでしょうか？
Generated Image March 16, 2025 - 10_25PM.png.jpeg 353.72 KB…
……
………怖っ！

どこから足が生えているのでしょう？オカルトの世界です。
これではもう「生成AIの悲しみ」というタイトルの現代アートとして発表するぐらいしか使い道がありません。

気を取り直し、場所を変え、さらに全身を描いてくれるよう「ゼリエリアが浜辺で踊っている」とハッキリとした動きを入力してみます。

Generated Image March 16, 2025 - 10_27PM.png.jpeg 200.42 KBおおっ！
ここに来て良い感じの絵を描いてきてくれました！
あれだけ「安全じゃない」って文句言ってたのに、結構際どい服装で攻めてきましたね！

さて、前回と全く違う場所とポーズなら新しい感じの絵になるのかもしれない！って事で、「ゼリエリアがどこまでも広がる草原の中、座って満点の星空を眺めている」というロマンチックな絵を描いてもらいましょう！

Generated Image March 16, 2025 - 10_29PM.png.jpeg 190.62 KB
…えっと…
…あれ？ロマンチック？

うーん。。
何となくこの結果から、この画像生成の使い方を「何か勘違いしている」気がしてきました。これ以上を望むのは厳しい気がしてきたので、最後に下記のプロンプトを入力して終わろうと思います。

「頬杖ついて、窓の外を眺めているゼリエリア」

Generated Image March 16, 2025 - 10_32PM.png.jpeg 178.38 KB

……！！

窓が増え、手が一本増えました！！

うーむ。。

ここまでの動きを見ると、Gemini 2.0 Flash (Image Generation) Experimentalは「１つの絵を完成させるため」にチャットで指示する…というやり方が正しいかもしれません。いろいろ試しましたが、画像はプロンプトを元に画像の一部を差分更新してる感が強いですね…

@Y.Miyado さんよりコメントで…

「Geminiの場合、どうやら画像も文脈としてとらえているようなので自然な文章でやり取りしたほうがよさそうです。」

というアドバイスをいただいたので試してみました！

IMG_2279.jpeg 450.78 KB                            ↓
        “look out the window”
                            ↓
IMG_2280.jpeg 287.25 KB
圧倒的に良くなりましたね！
絵柄的にはGemini風の絵になっているので、元絵との整合性は取れてない感はありますね！

元絵を入れた方が圧倒的に素晴らしい絵を描いてくれますが…Dall-E3で絵を用意しても、別の絵柄になってしまったので悩ましいところです。まぁ、画像生成のモデルが違うので当然と言えば当然なのでしょう。

ならば！自分の顔をアニメ調にすれば！！
…試してみました！

IMG_2281.jpeg 174.23 KB…顔に落書きされましたw

Geminiさん難しい…

このブログ一覧は

メンバー投稿記事

です

メンバー登録すると、限定記事の閲覧やメンバー同士の交流、限定イベントへの参加などができます。

もっと詳しく

メンバーの方はこちらからログイン

ChatGPT 4o の画像生成がアップデートされたので漫画を作ってみた

絵本ケンタの星送り with Gemini 2.0 Flash