2024.08.16

生成AIで作られた写真への違和感ってなんだろう？

生成AIで作られた写真への違和感ってなんだろう？

この疑問から本企画がスタートした。

生成AIで作られた写真に写っている人物は、誰もなんとなく似ていて、｢この人の顔だけは覚えてる｣みたいなユニークな出会いがない。ディープラーニングによって得られた膨大なデータの中から生み出された、“平均的な顔”のような気さえする。オリジナリティが感じられない。

それは人物以外、その画像の“シーン”にも当てはまる。

人間が日常の中で撮った絶妙なニュアンスのある写真をAIで生成することは難しいのではないだろうか。

なんでもない日常を写した写真を生成してみる

今回の企画では、私たちがなんとなくスマホで撮った日常の写真を画像生成AIで再現してみることを試みた。具体的には、編集部員が自分のスマホの写真フォルダから持ち寄った“絶妙なニュアンスの写真”を画像生成AIソフト｢midjourney｣を使って生成する。それによって、リアルな写真と、AIによって生成された写真の具体的な違いを紐解いていく。

midjourneyはユーザーが入力したテキスト（プロンプト）に応じて、AIが画像を生成する画像生成AIだ（技術の詳細は明らかにされていないため、記述を省く）。プロンプトのみによる画像の生成に加えて、画像をアップロードし、画像とプロンプトを参考にさらにリアルに画像生成をすることもできる。

ケース1：焦げたパンの写真

元画像

Photo: 吉岡

まずは編集部員・吉岡が撮影した、焦げたパンの写真。よくスーパーで売っているロールパンがまるまる焦げて黒くなっている。お皿はキッチンに置かれ、ナイフで少しだけ焦げを削いだ形跡がある。

これをmidjourneyで生成してみる。プロンプトは下記。（ちなみにプロンプトはChat-GPTに画像を読み込ませて、画像生成をするためのプロンプトを作ってもらった）

Two small round soft bread rolls on a plate. The surface of the two bread rolls are burnt black. They look like bread sold in Japanese convenience stores. One of the bread rolls has a little trace of burnt surface scraped off by the knife. Texture taken by an amateur with an iPhone 13 mini. They are on a silver table in the kitchen. Composition taken by speaking from a little higher up.
（皿の上に小さな丸いソフトパンが2つ。2つのパンの表面は黒く焦げている。日本のコンビニで売られているパンのようだ。ロールパンの1つには、ナイフで削ぎ落とした焦げた跡が少し残っている。素人がiPhone 13 miniで撮影したテクスチャー。キッチンの銀色のテーブルの上に置いてある。少し高い位置から撮影した構図。）

そしてこのプロンプトのみで生成した画像がこちら。

生成画像（プロンプトのみ）

Image: Generated with midjourney

テキストのみで生成した画像にしては、結構近い。

しかしやはり本来の写真と比べて手前のテクスチャーが細かすぎる、かつ奥のボケが強いため、まるでポートレート写真を撮ったような違和感がある。元写真の持つ全体的にぼんやりとしたニュアンスが現れていないように思える。プロンプトでもiPhoneで撮影した質感を出すように指示したが、意図したようには反映されなかった。

そもそもこのパンはなにパンだろう？ いわゆる日本のスーパーで購入できるロールパンがなかなか生成できず、あまり見慣れないパンになってしまい苦戦した。

続いて元画像もアップロードして生成したものがこちら。

gizmodo_midjourney_httpss.mj.run2vPW4gHta_0_A_close-up_photog_548802ae-2ffa-4237-96dd-aa9ef2199276_0

Image: Generated with midjourney

質感や写真の要素がかなり近くなった。写真の持つぼんやりした雰囲気やお皿のデザインなどもだいぶ近づいた。それでもまだ、テクスチャーが細かすぎる部分は若干ある。

人間が頭で考えたプロンプトには限界があるなと思いつつ、一部をAIに任せてしまえば限界もある程度は突破できるように感じた。でも裏を返せば、雑に撮影したような写真は、簡単にAIには作り出せなくて、それが人間らしさの一つなんだと思った。（編集長・吉岡）

ケース2：部屋に吊るした、てるてる坊主の写真

8791EC6A-4208-4729-B5DD-6333DE6B1BAA

Photo: 黒田

編集部員・黒田が撮影した、部屋の物干し竿を引っ掛けるための穴に吊るされ“てるてる坊主”。なんとも言えない表情がかわいいような切ないような。全体的に情報量が少なく、シンプルな印象。これなら結構高い完成度で生成できるのでは…？

プロンプトは下記。（Chat-GPTにて作成）

A close-up photograph of a ceiling-mounted metal rod with a white circular base, from which a small, handmade figure made by tissue which has body shaps like a skirt and smiley face which is surrounded by a circle ring is hanging. The background includes beige textured walls and a partially visible dark grey curtain. The image captures the simplicity of the room with minimalistic decor. The lighting is natural, creating a soft and calm atmosphere.
（天井に取り付けられた金属製の棒のクローズアップ写真。白い円形の土台があり、そこにティッシュで作られた小さな手作りのフィギュアがぶら下がっている。背景はベージュの質感の壁と、部分的に見える濃いグレーのカーテン。ミニマルな装飾でシンプルな部屋を表現している。照明は自然光で、ソフトで落ち着いた雰囲気を醸し出している。）

そしてこのプロンプトのみで生成した画像がこちら。

sakou_hitoshi_A_close-up_photograph_of_a_ceiling-mounted_meta_c011c05c-f1bd-49f0-9477-40429a22aa75_2

Generated with midjourney

これは一体…？

｢てるてる坊主｣の英語がなかったため｢handmade figure made by tissue which has body shaps like a skirt and smiley face｣としたが、よく分からない白いリネン製っぽい物体が出来上がってしまった。やはり既製の画像生成ソフトウェアの弱みは、地域特有のものなど、オリジナリティのある物体を作り出せない点だということが分かった。（自分たちで一から目的に合った画像生成AIソフトウェアを作り出せすことができれば、この点はもう少し改善するかもしれない）

てるてる坊主を説明するためのプロンプトを少々いじって再度生成してみる。

sakou_hitoshi_A_close-up_photograph_of_a_ceiling-mounted_meta_b38b80cd-49ad-4790-9041-cc2d38297650_2

Generated with midjourney

なんとなく近づいた。変わった造形ではあるが、パッと見、てるてる坊主だと人間が判断できるところまでは到達したのではないだろうか。

背景の壁のテクスチャーが濃すぎるため、写真としてはやはり違和感がある。先ほどの焦げたパンの写真とも通じるが、元の写真の持つモヤっとしたニュアンスがどうしても今回使用した画像生成AIだと作り出せなかった。

続いて元画像もアップロードして生成したものがこちら。

sakou_hitoshi_httpss.mj.runCqH5i-Ellps_A_close-up_photograph__9f99ecdf-3924-44d8-999b-b9bf3e3d11c1_2

Generated with midjourney

写真の構図や人形の表情はだいぶ近づいた。ただどちらにしろ、｢顔が竿の輪っかにハマっている様子｣が反映できず。ここが一番のこの写真の売りであり、オリジナルな部分であるのに…。

出力すると、なんとなく型にハマった近いものは生成できたものの、てるてる坊主（値する英単語が見当たらない）がただのおしゃれなオブジェクトになってしまったり、背景が人のぬくもりを感じない無機質なものになってしまいました。元の写真をMidjourneyにアップロードして、ChatGPTのプロンプトを自分で触り、てるてる坊主の表現を修正て再度生成してみると、元写真とほぼ同じようなものが出来上がった。スマイリーフェイスも再現できたし満足度高め。（編集部員・黒田）

ケース3：物欲しそうに切ない表情を浮かべる犬

DE0B030F-1E5B-41E1-AC9D-B3DFC3AB8749

Photo: ヤタガイ

私、編集部員・ヤタガイが実家にて撮影した、テーブルで食事をするわたしの目の前に座り、物欲しそうにこちらを見つめる愛犬の写真。人間の食べ物は基本的にあげられないため、かわいそうではあるが我慢してもらっている。テーブルに両手を付き、まるで人間のように椅子に着席しているトイプードルには、なんとも言えない哀愁が漂っている。

この絶妙な空気感をAIに生成することができるのか。

プロンプトは下記。（Chat-GPTにて作成）

The photograph shows a wall with a white background and a table with an electrical switch mounted on the wall. On the table is a mug with a red pattern on a white background, and in the mug is a red spoon. In front of the table sits a small toy poodle with curly fur sitting on a chair. The dog's fur is light brown with curly eyes. The dog has its front paws over the edge of the table and is staring at us. Its expression is fragile. The chair is white in color and is visible along with the wall as a background for the dog. Overall, this photo gives the impression of a simple and calm interior.
（写真には白を基調とした壁と、壁に取り付けられた電気スイッチ付きのテーブルが写っている。テーブルの上には白地に赤い模様のマグカップが置かれ、マグカップの中には赤いスプーンが入っている。テーブルの前には、巻き毛の小さなトイ・プードルが椅子に座っている。犬の毛色は明るい茶色で、目は丸い。犬は前足をテーブルの縁にかけ、こちらを見つめている。その表情は儚げだ。椅子は白色で、犬の背景として壁とともに写っている。全体として、この写真はシンプルで落ち着いたインテリアの印象を与える。）

そしてこのプロンプトのみで生成した画像がこちら。

gizmodo_midjourney_The_photograph_shows_a_wall_with_a_white_b_ec251974-a50f-42f1-b35a-aa0e56a0ee9c_2

Generated with midjourney

すでにだいぶ近い。構図も犬種も近いし、儚い表情をしている（＝Its expression is fragile. ）とプロンプトに書いてあるため、表情も結構似ていると思う。茶色のトイプードルという比較的世界中で普遍的な見た目の生き物を生成したため、生成AIからしてもデータを集めやすかったのではないだろうか。

続いて元画像もアップロードして生成したものがこちら。

gizmodo_midjourney_The_photograph_shows_a_wall_with_a_white_b_ec251974-a50f-42f1-b35a-aa0e56a0ee9c_0

Generated with midjourney

犬の輪郭や表情が元画像にグッと近づいたように感じる。似ているけれどどこか不気味に感じるのは、やはりテクスチャーの細かさではないだろうか？

やけにテーブルがテカテカしていたり、毛並みの細かい部分までしっかり目視できるほど高画質であったり、やはり元画像の全体がボヤッと靄がかかっているような質感が出せない。ふいに撮ったのではなく、ポートレート写真のように綺麗にまとまりすぎているのだ。

見えてきた違和感の正体

編集部員が選んだ偶然の産物である写真たちを改めて画像生成AIのmidjourneyで再現することによって見えてきたことがある。

それは、

・ポートレート写真のように綺麗にまとまりすぎている
・テクスチャーが細かすぎる手前の部分と、奥のボケている部分の差がキツい
・特定の地域にしかないものや文化を生成することが難しい

ということ。

特にテクスチャーの細かさや、無駄に綺麗にまとめようとしてくるところに違和感を感じることが多かった。

逆に、生成AIで雑に人間が撮ったピントがうまく合っていない“手ぐせのある”写真や、まとまりのない情報量の多いシチュエーションを生成することは難易度が高いと言える。

雑味やズレ、手ぐせ、ボヤけ。それらのオリジナリティが高い偶発性が人間の撮った写真らしさ、魅力だということに気づいた。

人間は本来雑味だらけなので、｢完璧すぎる、綺麗すぎる、細かすぎる｣AI由来のものに対して違和感を覚えることは、ある意味自然なのだろう。そんな結論に行き着いた。

話が少し飛躍するが、“ズレ”の美学といえば思い浮かぶのが、個人的にはJ・ディラだ。彼はデ・ラ・ソウルやア・トライブ・コールド・クエスト、エリカ・バドゥなどアメリカのヒップホップやR&Bを中心に活躍した音楽プロデューサーなのだが、彼の作るビートの特徴であり多くの人を魅了したのが、音の“ズレ”なのだ。

私たちは音楽を聴くときにドラムなどの音が規則的に流れてくることを予想して聴く。（実際にデジタル音楽処理技術では｢クオンタイズ｣という、シーケンスソフト上に音を打ち込んだときに微妙にズレた箇所を正確に調整してくれるソフトウェア機能・プロセスも存在し、よく使われている）しかし、ディラはそれを逆手に取り、機械的に正確に音がハマることを避け、独特なグルーヴのある音楽を多く作り出した。そのようなズレやヨレのある音楽は多くの人々に好まれ、彼が登場して以降のヒップホップ、R&Bに大きく影響を及ぼした。

話を今回の企画に戻して注目したいのが、これらの写真のシチュエーションは、よくある見慣れた風景ではなく、｢なんでこうなった｣｢なんでそこに引っ掛けた？｣｢犬がそんな表情する？｣みたいな突拍子もない出来事。こういった特殊な場面を写した写真は、“偶然”と“人間のその場面を切り取ろうと決めたアイディア”からしか生まれない。

AIには一から何かを生み出す｢創造｣ができない。

人間は活動する中で生まれた偶然と、その偶然からひらめきを得ることにより、新しいアイディアを思いつく。この創造的な活動は、現時点ではAIから生み出されることはない。それはAIがすでに存在する情報から学習して、それらの情報の中を探索をすることによって作品を生成することに起因する。

しかしここで一つ考えておきたいのが、AIは創造することはできないが、人間が創造することの手がかりは与えてくれるということ。私たちが作り出した一次的なアイディアを手がかりに、AIはそれらを膨らませることができる。そういう人間の創造の“相棒”になってくれる可能性に期待している。

先ほど言及したJ・ディラが、あえて音のハメ方を規則的なものからズラして人気を博したように、昨今ではAI技術によって“あえて”“正確に”音をズラし、ヒューマナイズすることができるソフトウェアも登場している。

人間の持つ雑味とAIの持つ完璧さ。それらを合わせることで、むしろ人間だけでは思い浮かばないような斬新なアイディアまで生み出すことができるのではないだろうか。それがAIの面白さと、今現在考えられる存在価値だと思った。

#AIが拡張する人間性

CategoryARTS & SCIENCE

目的と価値消失

#カルチャーはお金システムの奴隷か？

日本人が知らないカルチャー経済革命を起こすプロフェッショナルたち