如果你玩过*Zork*(或者和大多数人一样后来才知道它),你一定记得那个感觉。"你站在一座白房子西面的空旷原野上。"没有图片,没有音乐。只有文字和你的想象力在独挑大梁。

将近50年来,互动小说一直就是这样。2019年AI Dungeon出现后,故事变得更聪明了,但视觉上依然没变:屏幕上的文字,如果开发者有美术预算的话或许还能有一两张静态图。

这正在快速改变。AI图像生成的质量和速度已经足够好,可以为每个场景实时生成插画了。不是通用的素材图,而是反映你的故事中正在发生的事情、有你的角色出镜、采用契合氛围的画风的实际插画。互动小说正在变成一种与以往完全不同的体验。

我们是怎么走到这一步的

经典绿色文字终端冒险游戏与AI生成的精美洞穴场景的对比

快速回顾一下历史。Infocom在70年代末和80年代做了*Zork*和*Planetfall*,纯文字游戏。90年代出现了点击式冒险游戏(想想*Monkey Island*),2000年代有了视觉小说,然后2019年AI Dungeon证明语言模型可以实时生成无限的故事路径。

但即便是AI Dungeon也还是纯文字。AI能写出龙攻击城堡的场景,可你得自己在脑海里想象。没有视觉层。

后来DALL-E、Midjourney、Stable Diffusion和FLUX这些图像生成模型跟上来了。突然间你可以在几秒内把文字描述变成一幅细致的插画。问题从"我们能从文字生成图片吗?"变成了"我们能把它和游戏引擎紧密结合,让画面真正像故事的一部分吗?"

答案是可以的。结果相当惊人。

为什么这件事比听起来大得多

在故事里放图片不是新鲜事。"自选冒险"系列书几十年前就有插图了。区别在于AI画作是程序化的:每个场景、每次游玩、每个选择都会重新生成。来看看这在实际中改变了什么:

没有两次游玩看起来一样

在传统游戏里,画师画好固定数量的场景然后反复使用。使用AI生成时,如果你选了洞穴而不是桥,你不会拿到从文件夹里调出来的通用"cave.jpg"。你得到的是这个故事里这个时刻的洞穴,你的角色拿着三个场景前捡到的东西站在入口处。再玩一次做出不同的选择,每张插画都不同。

画面会对你的选择做出反应

当你选择和强盗谈判而不是开打时,生成的场景不只是切换到一个"对话"模板。你会看到紧绷的肢体语言、放下的武器、两个阵营之间的篝火。画面强化了你决策的情感分量。后果变成看得见的,而不仅仅是被描述出来。

不再需要美术预算

这件事的重要性超出了大多数人的认知。在AI绘画出现之前,制作视觉丰富的互动故事意味着雇佣画师、委托绘制成百上千张场景插图。只有资金充裕的工作室才做得到。现在一个独立创作者就能打造奇幻史诗、黑色侦探故事或童话冒险,每个场景都有自己独特的画面。竞争的门槛一夜之间被拉平了。

看到和读到的冲击力不同

电影对大多数人来说比书更有冲击力是有原因的(书迷们别介意)。视觉能产生即时的情感冲击。当你因为做了错误的决定而看到城市在燃烧,或是看到自己刚拯救的王国上方升起朝阳时,那种感觉和读一段描述文字完全不同。AI画作弥合了"互动书"和"可玩的电影"之间的差距。

难点:让角色看起来始终一致

同一个战士角色在动漫、水彩、电影和像素风四种风格下保持一致的渲染效果

用过Midjourney或DALL-E的人都知道最大的问题:让AI画同一个角色两次,出来的是两个完全不同的人。脸不同,头发不同,身材也不同。如果只是一次性的图片那没关系,但在一个需要你在几十个场景中始终扮演同一个主角的叙事游戏里,这会毁掉一切。

解决这个问题不是写更好的提示词就行的。它需要一整套流程:角色参考图、风格嵌入、姿势引导、构图逻辑。这种东西靠个人去拼凑是非常困难的。

这正是专门设计的平台和"直接用ChatGPT"方式拉开差距的地方。在aiga_上,比如你可以上传自己的照片,AI会在每个场景中把你渲染为主角。你的面部、服装、身材比例保持一致,无论故事是动漫风、水彩风、电影写实还是其他任何风格。第一个场景和第五十个场景看起来是同一个人。这听起来也许是小事,但它是噱头和真正沉浸感之间的区别。

将画风作为叙事工具

在传统游戏中,视觉风格在开发阶段就锁定了。一款游戏要么是像素风要么是写实风,选定了就不变了。使用AI生成,风格可以跟随故事的发展而变化。

想象一个恐怖故事以温暖友好的水彩画开头,随着气氛变得紧张逐渐转向黑暗粗粝的炭笔画。或者一个时间旅行冒险,中世纪段落看起来像挂毯,20年代场景是装饰艺术风,未来则是霓虹赛博朋克。画风本身成为叙事的一部分。你在读文字之前就已经感受到了氛围的变化。

aiga_已经允许创作者从画风库中为自己的世界选择风格。儿童故事可以使用明亮的动画风插图,暗黑奇幻使用电影感光效,喜剧则采用夸张的卡通画风。这现在是一种创意选择,不再是制作上的限制。

多人模式让它更上一层楼

多名玩家围坐在发光的奇幻地图桌旁,在多人AI游戏中为故事决策投票

单人玩很棒,但和一群人一起玩时魔力才真正生效。一群人为故事决策投票,AI处理获胜的选项,然后所有人都会看到一幅全新的插画展示刚刚发生的事情。没有人见过那张图。它是从这群人的集体决定中诞生的。这种感觉确实令人兴奋。

通过aiga_的Discord、Telegram和X连接功能,这一切直接发生在大家已经在用的平台里。一个Discord社区投票决定是强攻城堡还是潜入下水道,结果以一幅插画场景的形式直接发布在频道里。聊天服务器一下子变得有趣多了。

对内容创作者和品牌来说还有一个不错的附带效果:每次会话都会生成一系列独特的插图内容。每张图都可以分享,每张都是由受众参与推动产生的。这是自动生成的有机内容。

它为不同的人打开了什么

AI插画互动小说有意思的地方在于它解锁了大量不同的使用场景。不只是"游戏玩家",还有那些你通常不会和文字冒险联系在一起的人:

  • 世界构建者和游戏设计师可以在几小时而非几个月内做出视觉丰富的游戏世界原型。专注于故事和分支逻辑,让AI处理美术,然后与社区分享你的世界让其他人来玩。
  • 桌游GM可以运营每场遭遇都有专属插画的战役。玩家们真的能看到那条龙、那个NPC、那个地下城。再也不用说"好,想象一个有柱子的大房间"了。
  • 老师可以构建历史和科学通过视觉生动呈现的互动课程。学生不只是阅读古罗马的内容,他们看到它,以历史风格的画作渲染出来,由自己的决定驱动接下来发生什么。
  • 品牌和营销团队可以创建受众投票决定剧情的互动营销活动。每个场景都生成天然适合分享的视觉内容。
  • 作家可以在构建故事的同时看到它被插画化。就像有一个24小时随叫随到的概念画师。

底层是怎么运作的

根据提示词做一张好图是简单的。在一个分支故事中做出几百张看起来属于同一个世界的连贯图片才是真正的工程挑战。以下是简化版的工作流程:

  1. AI读取故事事件并提取关键视觉元素:地点、场景中的人物、氛围、时间段以及重要的物品或动作。
  2. 这些元素与世界的画风设置和角色参考数据结合,构建出一个详细的图像提示词。
  3. 如果玩家有自定义主角(比如上传了照片),系统会注入参考嵌入以确保角色的一致呈现。
  4. 提示词被发送到图像模型(FLUX、DALL-E、Stable Diffusion等)来渲染场景。有些流程会进行多轮优化。
  5. 生成的图像会经过质量、安全性和与之前场景的一致性检查。
  6. 完成的插画与其故事文本配对,然后传递给玩家,无论是在网页上、Discord嵌入、Telegram消息还是X帖子中。

未来的方向

我们仍处于早期阶段。非常早期。以下是接下来将要到来的:

  • 动画场景取代静态图片。想象从故事上下文实时生成的短电影片段。战斗以5秒动画展开,而不是一张静止画面。
  • AI配音叠加在画面之上。每个叙事游戏都变成你作为主角的个人定制动画剧集。
  • 持久化的世界状态。如果你在第二章烧掉了村庄,游戏后续在那个地点的每个场景都会显示废墟。世界在视觉上记住了你做过的事。
  • 自定义画风。上传参考画作,整个游戏会适配你的审美。同样的故事,每个玩家看到的画面完全不同。
  • 导出为其他格式。想象通关后把整个经历导出为插画电子书、漫画或动画短片。你的这次游玩变成了一件可出版的艺术作品。

比游戏更大的意义

这件事最让人兴奋的不是游戏的角度,而是AI插画互动小说正在成为一种真正全新的创作媒介。它介于游戏、文学、视觉艺术和社区参与之间,几乎任何人都可以使用。

老师不需要会画画或编程就能为课堂制作图文并茂的历史冒险。朋友们可以一起玩自定义RPG,结束后带走一整个独一无二的插画集。品牌可以不用雇动画工作室就发起互动视觉营销活动。

这才是真正的转变。不只是阅读或游玩的故事,而是你看到的故事,由你的选择塑造,每次都以独特的方式渲染。

自己来试试

每个场景都有插画,角色在整个游玩过程中保持一致。可以单人、和朋友一起、或者和整个社区在网页、Discord、Telegram和X上一起玩。

探索共享世界