*Zork*をプレイしたことがある人なら(あるいは後から知った人でも)覚えているはずです。「白い家の西にある開けた野原にあなたは立っている。」画像はなし。サウンドトラックもなし。言葉と想像力だけがすべてでした。

約50年間、インタラクティブフィクションはずっとそうでした。2019年にAI Dungeonが登場してストーリーはより賢くなりましたが、見た目は変わらないままでした。画面上のテキスト、良くても開発者にアート予算があれば静止画が数枚あるくらい。

それが急速に変わりつつあります。AI画像生成はすでに十分な品質とスピードに達し、すべてのシーンをリアルタイムで描き出せるようになりました。汎用的なストック画像ではありません。あなたのストーリーで起きていることを、あなたのキャラクターが登場する形で、その瞬間にふさわしいアートスタイルで描いたイラストです。インタラクティブフィクションは、これまでとはまったく違うものへと変わり始めています。

ここに至るまでの道のり

緑色テキストの古典的なターミナル冒険ゲームとAI生成のリッチな洞窟シーンの比較

歴史を簡単に振り返りましょう。Infocomが70年代後半から80年代に*Zork*や*Planetfall*を作りました。純粋なテキストだけの作品です。90年代にはポイント&クリックアドベンチャー(*Monkey Island*を思い浮かべてください)が登場し、2000年代にはビジュアルノベルが生まれ、そして2019年にAI Dungeonが言語モデルでリアルタイムに無限の物語を生成できることを証明しました。

しかしAI Dungeonでさえテキストだけでした。AIはドラゴンが城を攻撃する場面を書けましたが、それを想像するのはプレイヤー自身です。ビジュアルの層はありませんでした。

そこにDALL-E、Midjourney、Stable Diffusion、FLUXといった画像生成モデルが追いつきました。テキストの説明を数秒で詳細なイラストに変換できるようになったのです。問いは「テキストから画像を作れるか?」から「ゲームエンジンに十分に統合して、アートがストーリーの一部に感じられるか?」に変わりました。

結論から言えば、できました。そしてその結果はかなり驚くべきものです。

思っているよりずっと大きな変化

ストーリーに画像を入れること自体は新しくありません。「きみならどうする?」系の本には何十年も前からイラストがありました。違いは、AIアートがプロシージャルであること。シーンごと、プレイごと、選択ごとに新しく生成されます。これが実際に何を変えるのかを見てみましょう。

同じ見た目のプレイスルーは二つとない

従来のゲームでは、アーティストが決まった数のシーンを描き、それが使い回されます。AI生成なら、橋ではなく洞窟を選んだとき、フォルダから取り出した汎用の「cave.jpg」は出てきません。このストーリーのこの瞬間の洞窟が、あなたのキャラクターが3シーン前に拾ったアイテムを手に入口に立っている姿とともに描かれます。もう一度プレイして別の選択をすれば、すべてのイラストが変わります。

アートがあなたの選択に反応する

山賊と戦う代わりに交渉を選んだとき、生成されるシーンは単に「会話」テンプレートに切り替わるのではありません。緊張した体の動き、下ろされた武器、二つのグループの間にあるたき火が見えます。アートがあなたの決断の感情的な重みを強化するのです。結果は「描写される」のではなく、見えるようになります。

アート予算はもう不要

これは多くの人が思っている以上に重要です。AIアート以前は、ビジュアルが豊かなインタラクティブストーリーを作るには、アーティストを雇い、何百枚ものシーンイラストを発注する必要がありました。資金力のあるスタジオにしかできないことでした。今では個人のクリエイターが、ファンタジー大作、ノワール探偵物語、子ども向け冒険を作れて、すべてのシーンにユニークなイラストが付きます。競争の土俵は一夜にして平らになりました。

読むのと見るのでは衝撃が違う

映画がほとんどの人にとって本より強い印象を与えるのには理由があります(本好きの方、すみません)。ビジュアルは即座に感情的なインパクトを生み出します。間違った判断で燃えている都市を見るとき、あるいは救った王国の夜明けを目にするとき、それを描写した文章を読むのとは違った響き方をします。AIアートは「インタラクティブブック」と「プレイできる映画」の間のギャップを埋めます。

難しいポイント:キャラクターの見た目の一貫性

同じ戦士キャラクターがアニメ、水彩、シネマティック、ピクセルアートの4つのスタイルで一貫して描かれている様子

MidjourneyやDALL-Eを触ったことのある人なら最大の問題を知っています。同じキャラクターを2回描かせると、まったくの別人が出てきます。顔も髪も体格も違う。一枚限りのイラストならそれでいいですが、何十ものシーンにわたって主人公であり続ける必要があるストーリーゲームでは致命的です。

この問題の解決はプロンプトを上手く書くだけでは足りません。キャラクター参照画像、スタイルエンベディング、ポーズガイダンス、構図ロジックといった一連のパイプラインが必要です。個人で組み上げるのはかなり大変な仕組みです。

ここが専用プラットフォームと「ChatGPTを使えばいい」アプローチの分かれ目です。aiga_では、たとえば自分の写真をアップロードすると、AIがすべてのシーンであなたを主人公として描きます。顔、服装、体型が一貫して保たれます。アニメ風でも水彩でもシネマティックリアリズムでもそれ以外でも。シーン1とシーン50が同じ人物に見えます。些細なことに聞こえるかもしれませんが、これは一発芸と本当に没入できる体験の違いです。

アートスタイルを物語のツールとして使う

従来のゲームでは、ビジュアルスタイルは開発時に固定されます。ピクセルアートかフォトリアルか、一つを選んだらそのまま。AI生成では、ストーリーの展開に合わせてスタイルを変化させることができます。

想像してみてください。ホラーストーリーが温かく親しみやすい水彩画で始まり、緊張感が高まるにつれて暗くざらついた木炭画に徐々に変わっていく。あるいは時間旅行のアドベンチャーで、中世パートはタペストリー風、1920年代はアール・デコ、未来はネオンサイバーパンクに見える。アートスタイルそのものが物語の一部になります。テキストを読む前に雰囲気の変化を感じられるのです。

aiga_ではすでにクリエイターが自分のワールド用にアートスタイルのライブラリから選べるようになっています。子ども向けの物語なら明るいアニメーション風イラスト、ダークファンタジーならシネマティックなライティング、コメディなら誇張されたカートゥーン。今やそれは制作上の制約ではなく、クリエイティブな選択です。

マルチプレイヤーでさらに面白くなる

光るファンタジーマップテーブルの周りに集まった複数のプレイヤーがマルチプレイヤーAIゲームでストーリーの決断に投票している様子

ソロプレイも楽しいですが、グループでプレイするとさらに魅力が増します。何人かでストーリーの決断に投票し、AIが勝った選択肢を処理すると、起こったばかりの出来事をまったく新しいイラストとして全員が見ることになります。その画像は誰も見たことがないもの。グループの集団的決断から生まれたものです。そこには本当にワクワクする何かがあります。

aiga_のDiscord、Telegram、X向けコネクションを使えば、これが人々がすでに使っているプラットフォームの中で直接起こります。Discordコミュニティが城に突入するか下水道から忍び込むかを投票し、結果はイラスト付きのシーンとしてチャンネルに直接投稿されます。チャットサーバーがまったく別の面白いものに変わります。

コンテンツクリエイターやブランドにとっては嬉しい副次効果があります。セッションごとにユニークなイラスト付きコンテンツのストリームが生成されるのです。各画像はシェア可能で、それぞれがオーディエンスの参加によって生まれたもの。自然に生まれるオーガニックコンテンツです。

さまざまな人に開かれる可能性

AIイラスト付きインタラクティブフィクションの面白さは、アンロックされるユースケースの多さです。「ゲーマー」だけでなく、テキストアドベンチャーとは普通結びつかない人々にも届きます。

  • ワールドビルダーやゲームデザイナーは、ビジュアルに豊かなゲームワールドを数か月ではなく数時間でプロトタイプできます。ストーリーと分岐ロジックに集中し、アートはAIに任せて、コミュニティとワールドを共有して他の人にもプレイしてもらいましょう。
  • テーブルトップRPGのゲームマスターは、すべての遭遇に独自のイラストが付くキャンペーンを運営できます。プレイヤーがドラゴンもNPCもダンジョンも実際に目で見られます。「柱のある大きな部屋を想像して」は、もう必要ありません。
  • 教師は、歴史や科学がビジュアルで生き生きとするインタラクティブな授業を構築できます。生徒は古代ローマについて読むだけでなく、歴史に基づいたアートで描かれたローマを見て、自分の決断が次に何を起こすかを決めます。
  • ブランドやマーケティングチームは、オーディエンスがプロットに投票するインタラクティブキャンペーンを作れます。各シーンがシェアを前提としたビジュアルコンテンツを生成します。
  • ライターは、物語を構築しながらそれがイラスト化されるのを見られます。24時間いつでも使えるコンセプトアーティストがいるようなものです。

内部の仕組み

プロンプトから良い画像を1枚作るのは簡単です。分岐する物語全体で、まとまりのある数百枚の画像を同じ世界のものに見えるように作るのが本当のエンジニアリング上の課題です。簡略化すると次のように動きます。

  1. AIがストーリーイベントを読み取り、重要な視覚要素を抽出します。場所、登場人物、雰囲気、時間帯、重要なオブジェクトやアクション。
  2. それらの要素がワールドのアートスタイル設定とキャラクター参照データと組み合わされ、詳細な画像プロンプトが構築されます。
  3. プレイヤーがカスタムヒーロー(写真アップロードなど)を持っている場合、システムが参照エンベディングを注入してキャラクターの一貫した描写を実現します。
  4. プロンプトが画像モデル(FLUX、DALL-E、Stable Diffusionなど)に送られ、シーンがレンダリングされます。パイプラインによっては品質向上のために複数パスが走ります。
  5. 生成された画像は品質、安全性、過去のシーンとの一貫性がチェックされます。
  6. 完成したイラストはストーリーテキストとペアになり、Web、Discordのエンベッド、Telegramメッセージ、Xのポストとしてプレイヤーに届きます。

この先に待っているもの

まだ初期段階です。本当に初期です。これから来るものを見てみましょう。

  • アニメーションシーンが静止画に取って代わります。ストーリーのコンテキストからリアルタイムで生成される短いシネマティッククリップを想像してください。戦闘は静止画ではなく5秒のアニメーションとして展開されます。
  • AIボイスアクティングがビジュアルの上に重なります。すべてのストーリーゲームが、あなたが主人公のパーソナライズされたアニメシリーズになります。
  • 永続的なワールドステート。第2章で村を燃やしたら、ゲームの残り全体でその場所のシーンには廃墟が映ります。世界があなたのしたことをビジュアルで覚えています。
  • カスタムアートスタイル。参考アートをアップロードすると、ゲーム全体があなたの美学に合わせて適応します。同じストーリーでもプレイヤーごとにまったく違う見た目になります。
  • 他のフォーマットへのエクスポート。ゲームを終えた後にすべてをイラスト付き電子書籍、コミック、またはアニメーションショートとしてエクスポートできることを想像してください。あなたのプレイスルーが出版可能なアート作品になります。

ゲームを超えた可能性

この動きで最もワクワクするのはゲームの観点ではありません。AIイラスト付きインタラクティブフィクションが、本当の意味で新しいクリエイティブメディアになりつつあるということです。ゲーム、文学、ビジュアルアート、コミュニティ参加のどこかに位置する存在で、基本的に誰でもアクセスできます。

教師はデッサンやコーディングのスキルなしにクラス向けのイラスト付き歴史アドベンチャーを作れます。友達同士でカスタムRPGをプレイし、セッションのユニークなイラストギャラリーを持ち帰れます。ブランドはアニメーションスタジオを雇わずにインタラクティブなビジュアルキャンペーンを立ち上げられます。

これが本当の変化です。読むだけ、プレイするだけではなく、あなたの選択によって形作られ、毎回ユニークにレンダリングされるストーリーを見る

自分で体験してみよう

すべてのシーンがイラスト化され、キャラクターはプレイ全体で一貫して描かれます。ソロでも、友達とでも、Web、Discord、Telegram、Xのコミュニティ全体とでもプレイできます。

共有ワールドを探索する