@Y.Miyado さんの記事を読み、Gemini 2.0 Flash (Image Generation) Experimentalで画像生成で同じキャラクターが登場させられる!との事で、居ても立っても居られなくなり試してみました!
※そんなY.Miyadoさんにも投稿いただいているCDLE名古屋をぜひフォローしよう!(宣伝)
では、どんなキャラクターを描かせようか?
という、ところなのですが…私がAIに書かせた小説の登場人物で、それなりにキャラ立ちしてる(私としては)お馴染みの「星間の約束」のゼリエリアさんにしました!
DALL-E3で描くと下記のような感じのキャラクターですね!
Gemini 2.0 Flash (Image Generation) Experimentalは無料で、下記場所で使えます!
まずは、下記の記事を元に作成した、「ゼリエリアさんの見た目のJSONプロンプト」を持っていますので、そちらで試して行こうと思います。
…で、試したのですが…
何か変なマークが表示されました。
なんだこれ?
開いてみましょう…
…えっと、安全じゃないとか、そんなこと言ってます。
あぁ、久々のGeminiさんでしたが…確かにGeminiさんは、そんな面倒な感じでしたよね。
非常に安全な絵を描いてもらってるはずなので、何度かリトライしました。
…したのですが…全く生成してくれないので諦めました。
イライラしたので、とりあえず…👎
何となくですが、服装の指示を与えるとダメっぽい気がします。こんな感じでプロンプトをJSONではなく、英語の文として服装の指示を減らして入力してみます。
A highly detailed, semi-realistic anime-style illustration of a young female character named Zerielia, depicted in a wide-format composition. She has a petite stature and fair skin, with a mysterious aura. Her eyes are round and captivating—her right eye is a deep blue with a starry sparkle, while her left eye is a soft pink with the same celestial effect. She has a small, rounded nose and slightly parted lips with a pale pink hue. Her silver eyebrows arch gently above her expressive eyes.
Her long, wavy hair flows past her waist, colored silver with a mesmerizing galaxy-like gradient that shifts between deep blues, purples, and soft pinks. A few strands float as if defying gravity. Her bangs sweep delicately to the side, partially framing her face. On the left side of her hair, she wears a cluster of star-shaped ornaments and delicate beads, resembling a miniature galaxy. A small star-shaped earring adorns her left ear.
The background is a dreamy cosmic scene, filled with softly glowing nebulas and distant twinkling stars, harmonizing with her celestial theme. The art style is semi-realistic anime, with finely detailed textures, soft yet dynamic lighting, and a slightly ethereal atmosphere.
試しみたところ…何か絵が作成されたっぽいです!
えっと…ブラックメタル系のバンドの方でしょうか?
ずいぶん予想とは違いましたが、宇宙的な輝きは無いものの、髪の毛の色や目の色、背景なんかも良い感じです。好みの絵か?と問われると…?
宇宙的要素が悪かったのかもしれません。「喫茶店でコーヒーを飲んでいる」って指示してみましょう!
おぉ!背景が宇宙ですが、良い感じです!
…でも、目の色が逆になってしまいました。画像生成はDALL-E3もそうですが、左右を正しく認識できない感じですね。
とりあえず、宇宙から離れたいので、「桜の花が満開の公園を歩いている」と入力してみましょう。
きっと、楽しそうに公園を歩いている絵が作成され…
…
……って、なんでしょうか?これは?
ひょっとしたら、場所しか指定していなかったのがダメだったのかもしれません。
「お前の指示には主語がない!」って怒られたのかもですね。ならば…
「ゼリエリアが桜が満開の道を両足で歩いている」
これならどうでしょうか?
…
……
………怖っ!
どこから足が生えているのでしょう?オカルトの世界です。
これではもう「生成AIの悲しみ」というタイトルの現代アートとして発表するぐらいしか使い道がありません。
気を取り直し、場所を変え、さらに全身を描いてくれるよう「ゼリエリアが浜辺で踊っている」とハッキリとした動きを入力してみます。
おおっ!
ここに来て良い感じの絵を描いてきてくれました!
あれだけ「安全じゃない」って文句言ってたのに、結構際どい服装で攻めてきましたね!
さて、前回と全く違う場所とポーズなら新しい感じの絵になるのかもしれない!って事で、「ゼリエリアがどこまでも広がる草原の中、座って満点の星空を眺めている」というロマンチックな絵を描いてもらいましょう!
…えっと…
…あれ?ロマンチック?
うーん。。
何となくこの結果から、この画像生成の使い方を「何か勘違いしている」気がしてきました。これ以上を望むのは厳しい気がしてきたので、最後に下記のプロンプトを入力して終わろうと思います。
「頬杖ついて、窓の外を眺めているゼリエリア」
……!!
窓が増え、手が一本増えました!!
うーむ。。
ここまでの動きを見ると、Gemini 2.0 Flash (Image Generation) Experimentalは「1つの絵を完成させるため」にチャットで指示する…というやり方が正しいかもしれません。いろいろ試しましたが、画像はプロンプトを元に画像の一部を差分更新してる感が強いですね…
@Y.Miyado さんよりコメントで…
「Geminiの場合、どうやら画像も文脈としてとらえているようなので自然な文章でやり取りしたほうがよさそうです。」
というアドバイスをいただいたので試してみました!
↓
“look out the window”
↓
圧倒的に良くなりましたね!
絵柄的にはGemini風の絵になっているので、元絵との整合性は取れてない感はありますね!
元絵を入れた方が圧倒的に素晴らしい絵を描いてくれますが…Dall-E3で絵を用意しても、別の絵柄になってしまったので悩ましいところです。まぁ、画像生成のモデルが違うので当然と言えば当然なのでしょう。
ならば!自分の顔をアニメ調にすれば!!
…試してみました!
…顔に落書きされましたw
Geminiさん難しい…