生成AIによる釣果画像の生成と生成AIを活用したステッカーの制作について

jwi8ekh22phjb4kzogcm_480_480-ab654f05.jpg

2024年の前半にMicrosoftのBing Image CreatorがDALL-E3に対応したての頃はまだ生成される画像の精度が悪く、プロンプトの文面でシーバスや黒鯛などを指定しても魚の魚種を上手く理解できず、魚種が不明な謎の魚が生成されたりしていましたが、その頃から約1年半が経過したので、久々に画像生成AIがどれほど進化しているのかを確認するべく、釣果画像の生成を試してみました。

OpenAIのChatGPTやX (旧Twitter) のGrokなど色々試してみましたが、スマホで簡単に画像が生成出来るメジャーなAIの中ではGoogleのGeminiが1番本物に近い雰囲気の写真が生成出来るようでした。

Google Photoのユーザの画像とかをLLMの学習素材に使用しているのかも。

以下がChatGPTとGeminiで生成した画像の比較です。

・ChatGPTで生成した釣果画像
魚だけでなく、人物も違和感が感じられる。
Open AIのChatGPTは画像生成モデルにDALL-E3を使ってたような気がしますが、ちょっと写真に光沢感が出てしまって違和感があります。
d4iak7ihk932vfh66vas_480_480-741c8ba7.jpg

6tmevh6mxoy4u696snfw_480_480-c8a1154a.jpg

・Geminiで生成した釣果画像
写真の質感がより本物に近く人が背景に馴染んでいる。
Gemini の場合は、Gemini 2.0 Flash プレビュー画像生成を使用します。 Googleの最高品質の画像生成AIのモデルはImagen 3なので、有償版のImagen 3だと更に高品質で細かく制御出来ますが、今はプロンプトでのコントロールが難しく、難易度が高い気がします。
juab7tk7vxjkki8wi4ey_480_480-bc611d8f.jpg

j4ntj3f9ua22ps4p367x_480_480-39be107a.jpg

o6ruwps97osx64mjk4fc_480_480-5bbf26b4.jpg

ChatGPTは一日の上限が4枚程度ですが、Geminiは無料枠でも一日40枚以上は生成出来ます。

プロンプトに指定するのサンプルのテンプレート文は以下です。

thyafiww3f6zhbns3zde_480_480-fa48b58e.jpg
----------------------------------------
フォトリアルで清楚系の黒髪ロングヘアーの日本の20代の可愛い少女の写真を作成して下さい。釣った40cmの生きたシーバス(スズキ)を両手で横向きで持っています。
場所は東京湾奥の隅田川の護岸沿いです。時期は5月です。時間帯は夜です。
釣竿とリールは写真に入れなくて良いです。自然光でiPhoneで撮影した画像です。
服装はカジュアルです。
----------------------------------------

文章は長文ではなく細かく切った方がよく、最初に来る文章の方が優先度が上がるので、まず最初に被写体である人物の指定、その次に魚種や背景となる釣り場の指定、最後に細かく服装や除外するものなどを記載してます。

釣竿やリール、ルアーなどの生成は現時点では得意ではないらしく、ガイドにラインが通ってなかったり、リールとロッドの向きが逆になったりするので釣具は写真から除外する様に指定するのがおすすめです。魚は縦向きを指定するとたまにフィッシュグリップを使ってくれます。

GoogleのGeminiは一時期白人と黒人の生成比率が異なり人種問題の影響で人の生成は出来なくなってましたが、数ヶ月前に無料ユーザにも機能が開放されました。ただ、未成年の人物の生成など幾つかの条件はブロックするフィルターが入ってるので、年齢などは20代以上で指定しておくのがオススメです。

地面に置いた魚の釣果画像は以下のようなものが生成出来ました。

5zjubzf24tmcd9gm62ob_480_480-769ad448.jpg

ogx7xpf3ct69wm9jwjhw_480_480-d2b80eef.jpg

nvafw3bazdbtucb5y5ih_480_480-3c7cbc9b.jpg

複数の魚の生成は個体差の表現が難しいので一匹づつ生成するのが良いようです。メジャーで計測している写真を生成すると、メジャーのメモリがぐちゃぐちゃになるのでまだ現時点ではメジャーは指示の中に入れない方が良いです。

その他に試験的に生成した釣果画像もサンプルとして載せておきます。

dhyjzwy2g7na7v75a4ij_480_480-56c9fd5f.jpg

2e4u9wjfpwav6ej6thev_480_480-b566dfe6.jpg

7r8be2samai6skds5g2d_480_480-62ae4a81.jpg

5nb6zu5vtitv4bcrs36d_480_480-f14d6bc6.jpg

xggjvhkwg8j5pyhb9tf8_480_480-b656c5df.jpg

boxw6w4sjpxsma4scnhw_480_480-a48bc605.jpg

o7ak38fxke9mfe4k9rjv_480_480-1b65c6e6.jpg

g4u986p5g82h4boddgge_480_480-b88feaa3.jpg

ちなみに、生成AIで生成した画像かどうかというのは一年もしないうちに人の目では判断出来ないようになると思いますが、人が目で認識をすることが出来ないけどコンピュータには識別出来る情報がピクセルにSynthIDという電子透かしで埋め込まれているので、システム的には生成AIの画像なのかどうかが明確に判定できるようになってます。昔のCDやDVDなどのコピー対策のために人の耳では聞き取れないような波長の音を含めてたのと同様です。

◆ 生成AIを活用したステッカーの作成について
Apple IntelligenceというAppleのAI機能がiOS 18.1以降を搭載したiPhone 16以降のiPhoneで使用出来るようになりました。

そのApple IntelligenceのアプリであるApple純正のImage Playgroundというアプリを使うと、iPhone内に保存されている写真から特定の個人を指定して画像を生成することが出来ます。

今回は近所の釣り場で見かけた釣り人の写真を適当に撮影してステッカーを作ってみることにします。

・被写体のサンプルに選ばれたシーバスアングラーのミジキングさん
kemse3c8863ytwr6t5g4_480_480-28617b03.jpg

x25grx4vg27rbiwf6zp9_480_480-ccaeca02.jpg

ggubakf8dt4n78cjahks_480_480-fc55a4c5.jpg

このミジキングさんをApple Intelligenceで指定して、ステッカー用のイラスト画像を生成します。

5fsxygo66xgajub6pujh_480_480-04bd1027.jpg

・スッテカー用に生成した画像が以下です。

jrvds4pxt4ihiogkdd2h_480_480-eb71a11b.jpg

これをコンビニでシール印刷します。今回はコンビニフォトというアプリを使用し、QRコードを生成してファミマで印刷してみました。
hwf2t5opfvpr4iz9p9p8_480_480-84758ad9.jpg

27cwc8oxs3djxyapxfmi_480_480-374d3623.jpg

出来上がったステッカーがこちらになります。

cngpjzw2rxnde78pbf4j_480_480-32cf68b1.jpg

これをハサミで切って分割し、近所の釣り人たちに配布して無理やり流行らせます。

k6ujr5x3wgwke7g24wci_480_480-10d07ceb.jpg

実際に釣りに行って釣果にステッカーを添えて撮影してみた釣果写真がこちらです。

ewtgvzv42njchnoy8vkt_480_480-47c7708f.jpg

ダイソーに推し活用のステッカーを入れるキーホルダーがあり、これが防水の代わりに使えるのでオススメしています。

◆ 最後に

生成AIについて興味がある方は、使い方より今後のAIの性能向上で社会や文化、人の認識がどのように変わっていくかということについての考えてみると良いかもです。 最近読んで良かったAI関連のオススメ書籍は以下です。

シンギュラリティはより近く: 人類がAIと融合するとき(レイ・カーツワイル)
https://www.amazon.co.jp/dp/4140819804

NEXUS 情報の人類史 上/下: 人間のネットワーク(ユヴァル・ノア・ハラリ)
https://www.amazon.co.jp/dp/4309229433

コメントを見る