如果你玩過*Zork*(或者跟大多數人一樣後來才認識它),你一定記得那個感覺。「你站在一棟白色房子西邊的空曠原野上。」沒有圖片,沒有配樂。只有文字和你的想像力在扛起一切。

將近50年來,互動小說一直是這個樣子。2019年AI Dungeon出現之後,故事變得更聰明了,但視覺上依然沒有改變:螢幕上的文字,運氣好的話或許有開發者用美術預算做的一兩張靜態圖。

這正在快速改變。AI圖像生成的品質和速度已經夠好了,可以為每個場景即時產生插畫。不是通用的素材圖片,而是反映你的故事裡正在發生的事、有你的角色出現、採用符合氛圍畫風的實際插畫。互動小說正在蛻變為一種截然不同的體驗。

我們是怎麼走到這一步的

經典綠色文字終端冒險遊戲與AI生成的精緻洞穴場景並排對比

快速回顧一下歷史。Infocom在70年代末和80年代做了*Zork*跟*Planetfall*,都是純文字遊戲。90年代出現了點擊式冒險遊戲(想想*Monkey Island*),2000年代有了視覺小說,接著2019年AI Dungeon證明語言模型可以即時生成無限的故事路徑。

但即使是AI Dungeon也只有文字。AI可以寫出龍攻擊城堡的場景,你卻得自己在腦中想像。完全沒有視覺層。

然後DALL-E、Midjourney、Stable Diffusion和FLUX這些圖像生成模型趕上來了。你突然可以在幾秒內把文字描述變成一幅精細的插畫。問題從「我們能從文字產生圖片嗎?」變成了「我們能把它跟遊戲引擎緊密結合,讓畫面真正感覺像故事的一部分嗎?」

結論是可以的。而且成果相當驚人。

為什麼這件事比聽起來重要得多

在故事裡放圖片不是什麼新鮮事。「自選冒險」系列書籍幾十年前就有插圖了。差別在於AI畫作是程序化的:每個場景、每次遊玩、每個選擇都會重新生成。來看看這在實際上改變了什麼:

沒有兩次遊玩看起來一樣

在傳統遊戲裡,畫師畫好固定數量的場景然後反覆使用。用AI生成的話,如果你選了洞穴而不是橋,你不會拿到從資料夾調出來的通用「cave.jpg」。你得到的是這個故事裡這個時刻的洞穴,你的角色拿著三個場景前撿到的東西站在入口。再玩一次做出不同的選擇,每張插畫都不同。

畫面會對你的選擇做出反應

當你選擇跟強盜談判而不是開打時,生成的場景不只是換成一個「對話」模板。你會看到緊繃的肢體語言、放下的武器、兩個陣營之間的營火。畫面強化了你決定的情感分量。後果變成看得見的,而不只是被描述出來。

不再需要美術預算

這件事的重要性超出大多數人的想像。在AI繪圖出現之前,製作視覺豐富的互動故事意味著雇用畫師、委託繪製成百上千張場景插圖。只有資金充裕的工作室才做得到。現在一個獨立創作者就能打造奇幻史詩、黑色偵探故事或兒童冒險,每個場景都有自己獨特的畫面。競爭的門檻一夕之間被拉平了。

看到和讀到的衝擊力不同

電影對大多數人來說比書更有衝擊力是有原因的(書迷們抱歉了)。視覺能產生即時的情感衝擊。當你因為做了錯誤的決定而看到城市在燃燒,或是看到自己剛拯救的王國上方升起朝陽時,那種感受和讀一段描述文字是完全不一樣的。AI畫作彌合了「互動書」和「可玩的電影」之間的差距。

困難的部分:讓角色外觀始終一致

同一個戰士角色在動漫、水彩、電影寫實和像素風四種風格下維持一致的渲染效果

用過Midjourney或DALL-E的人都知道最大的問題:讓AI畫同一個角色兩次,結果會出來兩個完全不同的人。臉不同、頭髮不同、體格也不同。如果只是一次性的圖片那沒關係,但在一個需要你在幾十個場景裡始終扮演同一個主角的敘事遊戲中,這會毀掉一切。

解決這個問題不是把提示詞寫得更好就行的。它需要一整套流程:角色參考圖、風格嵌入、姿態引導、構圖邏輯。這種東西靠個人去拼湊是非常困難的。

這正是專門設計的平台和「直接用ChatGPT」方式拉開差距的地方。在aiga_上,例如你可以上傳自己的照片,AI會在每個場景中把你渲染為主角。你的面部、服裝、身材比例保持一致,無論故事是動漫風、水彩風、電影寫實還是其他任何風格。第一個場景和第五十個場景看起來是同一個人。這聽起來或許是小事,但它是噱頭和真正沉浸感之間的區別。

將畫風當作敘事工具

在傳統遊戲中,視覺風格在開發階段就鎖定了。一款遊戲不是像素風就是寫實風,選定之後就不會變。使用AI生成的話,風格可以隨著故事的發展而變化。

想像一個恐怖故事以溫暖親切的水彩畫開頭,隨著氣氛變得緊張逐漸轉向黑暗粗礪的炭筆畫。或者一個時間旅行冒險,中世紀篇章看起來像掛毯,1920年代場景是裝飾藝術風格,未來則是霓虹賽博龐克。畫風本身成為敘事的一部分。你在讀文字之前就已經感受到了氛圍的轉變。

aiga_已經讓創作者可以從畫風資料庫中為自己的世界選擇風格。兒童故事可以用明亮的動畫風插圖,暗黑奇幻用電影感打光,喜劇則採用誇張的卡通畫風。這現在是一種創意選擇,不再是製作上的限制。

多人模式讓它更上一層樓

多名玩家圍坐在發光的奇幻地圖桌旁,在多人AI遊戲中為故事決策投票

一個人玩很棒,但跟一群人一起玩時魔力才真正發揮。一群人為故事決策投票,AI處理獲勝的選項,然後所有人都會看到一幅全新的插畫展示剛剛發生的事情。沒有人見過那張圖,它是從這群人的集體決定中誕生的。這種感覺確實令人興奮。

透過aiga_的Discord、Telegram和X連接功能,這一切直接發生在大家已經在用的平台裡。一個Discord社群投票決定是強攻城堡還是潛入下水道,結果以一幅插畫場景的形式直接發佈在頻道裡。聊天伺服器一下子變得有趣多了。

對內容創作者和品牌來說還有一個不錯的附帶效果:每次遊戲都會生成一系列獨特的插圖內容。每張圖都可以分享,每張都是由受眾參與推動產生的。這是自然產生的有機內容。

它為不同的人打開了什麼

AI插畫互動小說有趣的地方在於它解鎖了大量不同的使用場景。不只是「遊戲玩家」,還有那些你通常不會跟文字冒險聯想在一起的人:

  • 世界建構者和遊戲設計師可以在幾小時而非幾個月內做出視覺豐富的遊戲世界原型。專注於故事和分支邏輯,讓AI處理美術,然後與社群分享你的世界讓其他人來玩。
  • 桌遊GM可以經營每場遭遇都有專屬插畫的戰役。玩家們真的能看到那條龍、那個NPC、那個地下城。再也不用說「好,想像一個有柱子的大房間」了。
  • 老師可以打造歷史和科學透過視覺生動呈現的互動課程。學生不只是閱讀古羅馬的內容,他們看到它,以歷史風格的畫作渲染出來,由自己的決定驅動接下來發生什麼。
  • 品牌和行銷團隊可以建立受眾投票決定劇情的互動行銷活動。每個場景都生成天然適合分享的視覺內容。
  • 作家可以在構建故事的同時看到它被插畫化。就像有一個24小時隨叫隨到的概念畫師。

底層是怎麼運作的

根據提示詞做一張好圖是簡單的。在一個分支故事中做出幾百張看起來屬於同一個世界的連貫圖片才是真正的工程挑戰。以下是簡化版的工作流程:

  1. AI讀取故事事件並提取關鍵視覺元素:地點、場景中的人物、氛圍、時間帶以及重要的物件或動作。
  2. 這些元素與世界的畫風設定和角色參考資料結合,建構出一個詳細的圖像提示詞。
  3. 如果玩家有自訂主角(例如上傳了照片),系統會注入參考嵌入以確保角色的一致呈現。
  4. 提示詞被送到圖像模型(FLUX、DALL-E、Stable Diffusion等)來算繪場景。有些流程會進行多輪精煉。
  5. 生成的圖像會經過品質、安全性和與先前場景一致性的檢查。
  6. 完成的插畫與其故事文字配對,然後傳送給玩家,無論是在網頁上、Discord嵌入、Telegram訊息還是X貼文中。

未來的走向

我們仍處於非常早期的階段。以下是接下來即將到來的發展:

  • 動畫場景取代靜態圖片。想像從故事脈絡即時生成的短電影片段。戰鬥以5秒動畫展開,而不是一張靜止畫面。
  • AI配音疊加在畫面之上。每個敘事遊戲都變成你作為主角的個人化動畫影集。
  • 持久化的世界狀態。如果你在第二章燒掉了村莊,遊戲後續在那個地點的每個場景都會顯示廢墟。世界在視覺上記住了你做過的事。
  • 自訂畫風。上傳參考畫作,整個遊戲會適配你的美學偏好。同樣的故事,每個玩家看到的畫面完全不同。
  • 匯出為其他格式。想像通關後把整個體驗匯出為插畫電子書、漫畫或動畫短片。你的這次遊玩變成了一件可出版的藝術作品。

比遊戲更大的格局

這件事最讓人興奮的不是遊戲的角度,而是AI插畫互動小說正在成為一種真正全新的創作媒介。它介於遊戲、文學、視覺藝術和社群參與之間,幾乎任何人都能使用。

老師不需要會畫畫或寫程式就能為課堂製作圖文並茂的歷史冒險。朋友們可以一起玩自訂RPG,結束後帶走一整個獨一無二的插畫集。品牌可以不用雇動畫工作室就發起互動視覺行銷活動。

這才是真正的轉變。不只是閱讀或遊玩的故事,而是你看到的故事,由你的選擇塑造,每次都以獨特的方式呈現。

自己來體驗看看

每個場景都有插畫,角色在整個遊玩過程中保持一致。可以單人、和朋友一起、或者和整個社群在網頁、Discord、Telegram和X上一起玩。

探索共享世界