今更ですが、Google Nano Bana「画像生成編」

ぬこファクトリーです。
今回は本当に今更なんですが、実際の画像を使ってGoogle Nano Bnanaで遊んでみたのでプロンプトと並行して結果をシェアしていきたいと思います。
というよりも「ぬこファクトリーの自習報告」というほうが適切でしょうか。

画像、動画を適切に生成するためにはどうすればいいのか?いざ生成AIに挑戦しようと思っている人達が一番最初にぶち当たる壁がこれだと思いますが、まずは遊び感覚でトライしてみればいいのではないかと思います。正直YouTubeや世の中の情報を漁ってみると情報が多すぎたり、レベルが高すぎて何が何やら分からなくなって、そのうち「もうやーめた」となってしまうことも・・ないですか??(そうか・・私だけか・・)

というぬこファクトリーの熱しやすく冷めやすい性格でも続けられる生成AIはじめの一歩ということで取り組んでみました。
使用する生成AIはタイトルの通り「Google Nano Bana」を使用します。YouTubeなんかでもすごいすごいと絶賛の嵐ですね。
Nano Bana実力を測るなどおこがましいことは言いませんが、やはり高い性能の生成AIならば使いこなせるようになっていたい!
(そして今後のお受けできる仕事の幅を広げたい)

で、この記事を書くにあたり「画像生成」と「動画生成」の両方にトライしてみました。いずれも生成AIの基礎の基礎の基礎の基礎の基礎のそれまた・・という内容です。今回はまず「画像生成編」をお届けします。本当に簡単なプロンプトばかりなのですが、難しいことをあっさりこなしています。そして結果について私なりに得た知見をもとに解説も加えてみました。
というわけで前置きが長くなりましたがスタートです。

Nano Banana:画像生成編

まず、もとの画像はこちらです。

この画像を以下のプロンプトで生成します。まずは小手調べ

【自転車の色を青に変えて下さい】

まぁ楽勝ですね。ただちょっと驚いた点は「ロゴの色がホワイトに変更されていたこと」です。オリジナルはグラデーションが入った濃いブラウンだったのですが、それだと青色の中に埋まってしまいます。でも車体色が青色ならデザイン的にロゴの色で自然なのはホワイトなのが自然だよね、とAIが学んだ結果が反映されているのですね。しかも生成までの時間が速い!
というわけで次のプロンプトはこちら

【ヘルメットの色を白に変えて下さい】これもすごく自然に出来上がりました。これも結構驚かされたのですが、オリジナルは黒のグラデーションでヘルメットの輪郭やエア抜きのスリットなどパッと見ではヘルメットの詳細は分かりくいのですが、見事に両方を理解して再生成しています。影の濃さや向きも違和感がありませんね。さすが、すごい!(でもヘルメットのロゴの文字は消えちゃってますね)
では次のプロンプトです。

【背景の空を夕暮れ時に変えて下さい】

はい、車体色もヘルメットの色も変更されたまま夕日の写真に変更されました。雲や山、ガードレールなどの光の反射や影なども含め、自転車の色も夕日を反映して全く違和感のない画像になっています。夕日の位置も完璧ですね、それでいて光が悪影響を与えて写真として破綻していることもない。この画像も生成までの時間はあっという間でした。
ではさらに次のプロンプトです

【TREKの文字をS-WORKSに変えて下さい】

ロゴの文字を「TREK」からF-1ドライバーのC・サインツも乗っている「S-WORKS」に変更してもらいました。これも違和感がない上にちゃんと「S-WORKS」のロゴで使っているフォントに変更されているんですね(笑)AIが「S-WORKS」とは自転車メーカーのブランドであり、ロゴはこうなっていると理解、記憶していることが分かりますね。「S-WORKS」、いつかお金ができたらグラベルロードモデルに乗ってみたいですね(笑)
それでは画像生成編、最後のプロンプトはこちら

【タイヤをグラベルタイヤに変えて下さい】

これは自転車に詳しい人じゃないと、なんのこっちゃ?な画像なのですが、これも結構すごいです。
グラベルロードモデルとは、ロードバイクの車体にマウンテンバイクのようなブロックの形をしたタイヤが装着されているモデルなのですが、オリジナルの自転車はそうではありませんでした。でも画像ではきちんとホイールが変更されて、タイヤもブロックタイヤに変更されています!
AIがプロンプトの文章を正しく理解し、さらに「タイヤ」「グラベルタイヤ」「変える」という単語を理解し、文章を組み立てて画像を生成しているということです。
余談ですが、ChatGPTやGeminiなどの生成AIの何がすごいと評価されているのかということですが、これは「コンピューターが自分で考え、言語でコントロールできるようになった」これが画期的なんですね。今までさらっと画像生成の流れを紹介しきましたがこれをやろうと思ったらフォトショップなど高度な画像編集ソフトを使い、いくつもの複雑な操作が必要でした。でも「こういうことがしたい!」とAIに伝えるだけで実現する時代がやってきたのです。

まとめ

今まで一部のデザイナーやエンジニアしか実現することができなかった、あんなことや、こんなことがAIを使うことによって簡単(まだちょっとしたコツはいるけど)にできるようになりました。
本当に思うように画像を作ろうと思うと、細かく長いプロンプトが必要で、文章力と具体性が求められてきます。
それとも音声入力に生成AIが対応するようになれば文章力は問われなくなるでしょうか?
いずれにせよ、今後求められていくのは「問題を提起する能力」と「求める回答を具体的に伝えること」それらを高度に実現させた「コミュニケーション能力」がAI時代の求められるスキルになるでしょうね。

それでは次回の今更ですが、Google Nano Bana「動画生成編」をお楽しみに!
それではまた〜