2023/7/13にGoogle Bardが新しくなって、画像入力に対応しました!
GPT-4もマルチモーダルで画像とテキストの入力が可能(一般には公開されていない)でしたが、それと同じようなことをGoogle Bardで実際に使えるようになっています。

📌仕組み

実際には、裏側でGoogle Lensを使って画像を解析しているようです。
そのため、Bardの言語モデル自体が画像を認識しているわけでは無く、画像は別プロセスで解析して、それを言語モデル側で総合的に判断しているような気がしています。
画像にある文字などは、OCRで読み込まれてテキストに変換もされているはず…

📌使い方

現時点で、この機能は「英語版」でしか提供されていません。そのため、日本語ではまだ利用できませんが、Googleの言語設定を英語にして、プロンプトを英語にすれば日本人でも利用できます。
なお、画像中の日本語はきちんと理解できるようで、出力プロンプトを日本語にすることも可能です。(入力に「日本語で答えて」という英文のプロンプトを入れればOK)

※既に「日本語で使えている」人もいるようですが、私の環境では「日本語設定」だと画像の入力はできませんでした。また、日本語による質問も「現在対応していません…」とお断りをされたので、仕方なく英語版で試しています。

📌使ってみた(その1)

まずは、論文中にある「図表」の読み取りを試してみました。
Transformerのベンチマーク結果を見せて、英語からドイツ語変換のBLUEスコアTop3を抜き出して…というプロンプトです。
test01.png 344.75 KB
結果としては「まずまず」と言ったところで、図表中の数値をある程度は読み込めていますが、「列の違い」は認識できておらず、今回の依頼とは関係の無い「英語からフランス語への翻訳スコア」が入り込んでいます。
何度実行しても同じような結果だったので、Google Lensで表の内容をOCRでテキスト化した際に、各数値がどの列か分からなくなっているのかな…という感じを受けました。

📌使ってみた(その2)

今度は、手書きで書いた画面イメージの「ラフスケッチ」を読み取って、実際のソースコードを作成する…という内容です。

レイアウトの細かい指示は、人間が添削をするような感じで「赤字」で記載しています。

test02.png 349.79 KB
かなり雑なスケッチ&雑な手書き文字での指示ですが、こちらはきちんと内容を理解してソースコードを生成してくれました。
このHTMLコードを実際に表示させると以下のような感じになり、赤字で書いた「ログインボタンを緑色にする指示」もきちんと反映されています。(ただしボタンの位置が左寄せになっていたり、完璧ではない)

login.png 7.72 KB

📌まとめ

精度では、まだまだ改良の余地はありますが、それでも「画像とテキストを同時に扱える」という点には大きなメリットがありますね。
GPT-4の画像認識機能も早く解放してくれないかな…!?

今後の成長も楽しみですね!