Nếu bạn từng chơi *Zork* hồi xưa (hoặc phát hiện ra nó sau này như đa số chúng ta), bạn biết nó thế nào: "Bạn đang đứng trong cánh đồng trống phía tây một ngôi nhà trắng." Không hình ảnh. Không nhạc nền. Chỉ có chữ và trí tưởng tượng của bạn gánh tất cả.
Gần 50 năm qua, truyện tương tác vẫn như vậy. Câu chuyện ngày càng hay hơn, đặc biệt khi các công cụ tạo văn bản AI như AI Dungeon xuất hiện năm 2019, nhưng về mặt hình ảnh vẫn y nguyên: chữ trên màn hình, may lắm thì có một hai hình tĩnh nếu nhà phát triển có ngân sách cho phần nghệ thuật.
Điều đó đang thay đổi nhanh chóng. Tạo hình AI đã đủ tốt và đủ nhanh để minh họa từng cảnh ngay lập tức. Không phải hình stock chung chung, mà là minh họa phản ánh chính xác điều đang xảy ra trong câu chuyện của bạn, có nhân vật của bạn trong đó, theo bất kỳ phong cách nghệ thuật nào phù hợp với bầu không khí. Và nó đang biến truyện tương tác thành thứ gì đó hoàn toàn khác so với trước đây.
Chúng ta đã đến đây như thế nào

Bài học lịch sử nhanh. Infocom tạo ra *Zork* và *Planetfall* vào cuối thập niên 70 và 80, hoàn toàn bằng chữ. Thập niên 90 mang đến game phiêu lưu point-and-click (nghĩ đến *Monkey Island*), thập niên 2000 cho ta visual novel, rồi năm 2019 AI Dungeon chứng minh rằng mô hình ngôn ngữ có thể tạo ra vô số nhánh truyện theo thời gian thực.
Nhưng ngay cả AI Dungeon cũng vẫn chỉ là chữ. AI có thể viết về rồng tấn công lâu đài, nhưng bạn phải tự tưởng tượng. Không có lớp hình ảnh nào cả.
Rồi các mô hình tạo hình như DALL-E, Midjourney, Stable Diffusion và FLUX bắt kịp. Đột nhiên bạn có thể chuyển một đoạn mô tả thành minh họa chi tiết trong vài giây. Câu hỏi không còn là "liệu chúng ta có thể tạo hình từ chữ không?" mà trở thành "liệu chúng ta có thể tích hợp nó vào engine game đủ chặt để hình ảnh thực sự cảm giác như một phần của câu chuyện không?"
Hóa ra là được. Và kết quả thật đáng kinh ngạc.
Tại sao chuyện này lớn hơn bạn tưởng
Đặt hình vào truyện không phải điều mới. Sách "chọn cuộc phiêu lưu của bạn" đã có minh họa từ hàng thập kỷ trước. Điểm khác biệt là nghệ thuật AI mang tính thủ tục: nó được tạo mới cho mỗi cảnh, mỗi lượt chơi, mỗi quyết định. Đây là những gì thực sự thay đổi trong thực tế:
Không có hai lượt chơi nào trông giống nhau
Trong game truyền thống, họa sĩ vẽ một số cảnh cố định rồi tái sử dụng. Với AI, nếu bạn chọn hang động thay vì cây cầu, bạn không nhận được file "cave.jpg" chung chung từ một thư mục. Bạn nhận được hang động này, tại thời điểm này trong câu chuyện, với nhân vật của bạn đứng ở cửa vào cầm thứ đã nhặt ba cảnh trước. Chơi lại, chọn khác đi, và mọi minh họa đều khác.
Hình ảnh phản ứng với lựa chọn của bạn
Khi bạn chọn thương lượng với bọn cướp thay vì chiến đấu, cảnh được tạo ra không chỉ chuyển sang mẫu "nói chuyện". Bạn thấy ngôn ngữ cơ thể căng thẳng, vũ khí hạ xuống, đống lửa trại giữa hai nhóm. Hình ảnh củng cố sức nặng cảm xúc của quyết định. Hậu quả trở nên nhìn thấy được, không chỉ được mô tả.
Không cần ngân sách nghệ thuật nữa
Điều này quan trọng hơn mọi người nghĩ. Trước khi có nghệ thuật AI, tạo truyện tương tác giàu hình ảnh đồng nghĩa với việc thuê họa sĩ và đặt vẽ hàng trăm cảnh. Chỉ các studio có vốn lớn mới làm được. Giờ đây một người sáng tạo đơn lẻ có thể xây dựng sử thi fantasy, truyện trinh thám noir, hay phiêu lưu cho trẻ em, và mỗi cảnh đều có tác phẩm nghệ thuật riêng. Sân chơi đã được san phẳng chỉ sau một đêm.
Nhìn thấy khác với đọc
Có lý do khiến phim tác động mạnh hơn sách với đa số mọi người (xin lỗi những người yêu sách). Hình ảnh tạo ra tác động cảm xúc tức thì. Khi bạn nhìn thấy thành phố bốc cháy vì bạn đã quyết sai, hay bình minh trên vương quốc bạn vừa cứu, nó chạm đến bạn khác hẳn so với một đoạn văn mô tả điều đó. Nghệ thuật AI thu hẹp khoảng cách giữa "sách tương tác" và "phim có thể chơi được."
Phần khó: giữ nhân vật trông nhất quán

Ai đã thử Midjourney hay DALL-E đều biết vấn đề lớn nhất: yêu cầu AI vẽ cùng nhân vật hai lần và bạn sẽ nhận được hai người hoàn toàn khác. Khuôn mặt khác, tóc khác, dáng người khác. Với một hình đơn lẻ thì không sao, nhưng với game kể chuyện mà bạn phải là nhân vật chính xuyên suốt hàng chục cảnh, nó phá hỏng tất cả.
Sửa vấn đề này không chỉ là viết prompt tốt hơn. Cần cả một pipeline: hình tham chiếu nhân vật, style embedding, hướng dẫn tư thế, logic bố cục. Loại công việc rất khó để tự ráp lại.
Đây chính là nơi các nền tảng được xây dựng chuyên biệt tách biệt khỏi cách tiếp cận "cứ dùng ChatGPT". Trên aiga_, ví dụ, bạn có thể tải ảnh của mình lên và AI sẽ vẽ bạn thành nhân vật chính trong mỗi cảnh. Khuôn mặt, trang phục, tỷ lệ cơ thể của bạn giữ nguyên nhất quán dù truyện theo phong cách anime, màu nước, điện ảnh chân thực hay bất kỳ gì khác. Cảnh đầu tiên và cảnh thứ năm mươi trông như cùng một người. Nghe có vẻ nhỏ, nhưng đó là sự khác biệt giữa trò mới lạ và thứ thực sự khiến bạn nhập vai.
Dùng phong cách nghệ thuật như công cụ kể chuyện
Trong game truyền thống, phong cách hình ảnh bị khóa cố định từ lúc phát triển. Game hoặc là pixel art hoặc là chân thực. Chọn một rồi thôi. Với AI, phong cách có thể thay đổi để phù hợp với diễn biến câu chuyện.
Hãy tưởng tượng truyện kinh dị bắt đầu bằng màu nước ấm áp thân thiện rồi dần chuyển sang than chì tối thô ráp khi tình huống căng thẳng lên. Hoặc phiêu lưu xuyên thời gian nơi phần trung cổ trông như tấm thảm dệt, cảnh thập niên 1920 mang phong cách Art Deco, và tương lai là neon cyberpunk. Bản thân phong cách nghệ thuật trở thành một phần của câu chuyện. Bạn cảm nhận được sự chuyển đổi tâm trạng trước khi đọc chữ.
aiga_ đã cho phép người sáng tạo chọn từ thư viện phong cách nghệ thuật cho thế giới của mình. Truyện thiếu nhi dùng minh họa hoạt hình tươi sáng. Fantasy u tối dùng ánh sáng kiểu điện ảnh. Hài dùng biếm họa phóng đại. Giờ đây đó là lựa chọn sáng tạo, không phải hạn chế sản xuất.
Nhiều người chơi càng hay hơn

Chơi một mình đã hay, nhưng phép màu thực sự bật lên khi chơi cùng nhóm. Một nhóm người bỏ phiếu cho một quyết định trong truyện, AI xử lý lựa chọn thắng, rồi tất cả mọi người cùng thấy một minh họa hoàn toàn mới về điều vừa xảy ra. Chưa ai từng thấy hình đó trước đây. Nó được tạo ra từ quyết định tập thể của cả nhóm. Có điều gì đó thực sự thú vị trong chuyện này.
Với kết nối của aiga_ cho Discord, Telegram và X, điều này xảy ra ngay trong các nền tảng mà mọi người đang dùng. Cộng đồng Discord bỏ phiếu xem nên xông vào lâu đài hay lẻn qua cống, kết quả hiện ra dưới dạng cảnh minh họa đăng thẳng vào kênh chat. Biến một server chat thành thứ thú vị hơn rất nhiều.
Với nhà sáng tạo nội dung và thương hiệu, có một hiệu ứng phụ hay: mỗi phiên chơi tạo ra dòng nội dung hình ảnh độc nhất. Mỗi hình đều chia sẻ được, mỗi hình đều được thúc đẩy bởi sự tham gia của khán giả. Đó là nội dung tự nhiên tự tạo ra chính nó.
Điều này mở ra gì cho nhiều đối tượng khác nhau
Điều thú vị về truyện tương tác có minh họa AI là số lượng trường hợp sử dụng mà nó mở khóa. Không chỉ cho "game thủ" mà cho cả những người thường không liên quan đến game phiêu lưu chữ:
- Người xây dựng thế giới và nhà thiết kế game có thể tạo prototype cho thế giới game giàu hình ảnh trong vài giờ thay vì vài tháng. Tập trung vào câu chuyện và logic phân nhánh, để AI lo phần hình, rồi chia sẻ thế giới của bạn với cộng đồng để người khác chơi.
- Game master RPG bàn giấy có thể chạy chiến dịch nơi mỗi cuộc chạm trán đều có minh họa riêng. Người chơi thực sự nhìn thấy con rồng, NPC, hầm ngục. Không cần "ờ, cứ tưởng tượng căn phòng lớn có nhiều cột" nữa.
- Giáo viên có thể xây bài học tương tác nơi lịch sử và khoa học sống động bằng hình ảnh. Học sinh không chỉ đọc về La Mã cổ đại. Các em nhìn thấy nó, được vẽ bằng phong cách lấy cảm hứng từ lịch sử, với quyết định của các em định hình chuyện gì xảy ra tiếp theo.
- Thương hiệu và đội marketing có thể tạo chiến dịch tương tác nơi khán giả bỏ phiếu cho cốt truyện. Mỗi cảnh tạo ra nội dung hình ảnh được thiết kế để chia sẻ.
- Nhà văn được thấy câu chuyện của mình được minh họa ngay trong lúc viết. Giống như có một họa sĩ concept sẵn sàng 24/7.
Cách nó hoạt động bên trong
Tạo một hình đẹp từ một prompt thì dễ. Tạo hàng trăm hình nhất quán xuyên suốt câu chuyện phân nhánh mà tất cả trông như thuộc cùng một bộ, đó mới là thử thách kỹ thuật. Đây là phiên bản đơn giản hóa cách nó hoạt động:
- AI đọc sự kiện trong truyện và trích xuất các yếu tố hình ảnh chính: địa điểm, ai có mặt trong cảnh, bầu không khí, thời gian trong ngày, và mọi vật thể hoặc hành động quan trọng.
- Các yếu tố đó được kết hợp với cài đặt phong cách nghệ thuật của thế giới và dữ liệu tham chiếu nhân vật để xây dựng prompt hình ảnh chi tiết.
- Nếu người chơi có nhân vật tùy chỉnh (như ảnh tải lên), hệ thống sẽ chèn embedding tham chiếu để nhân vật xuất hiện nhất quán.
- Prompt được gửi đến mô hình hình ảnh (FLUX, DALL-E, Stable Diffusion, v.v.) để render cảnh. Một số pipeline chạy nhiều vòng để tinh chỉnh.
- Hình được tạo ra sẽ được kiểm tra chất lượng, an toàn và tính nhất quán với các cảnh trước.
- Minh họa hoàn thiện được ghép với văn bản truyện và gửi đến người chơi, dù là trên web, trong embed Discord, tin nhắn Telegram hay bài đăng trên X.
Hướng đi tiếp theo
Chúng ta vẫn đang ở giai đoạn rất sớm. Rất sớm luôn. Đây là những gì sắp đến:
- Cảnh động thay vì hình tĩnh. Hãy nghĩ đến các clip ngắn kiểu điện ảnh được tạo theo thời gian thực từ bối cảnh truyện. Một trận chiến diễn ra dưới dạng hoạt ảnh 5 giây thay vì một khung hình tĩnh.
- Lồng tiếng AI phủ lên trên cảnh hình ảnh. Mỗi game kể chuyện trở thành series hoạt hình cá nhân hóa nơi bạn là nhân vật chính.
- Trạng thái thế giới bền vững. Nếu bạn đốt làng ở chương hai, mọi cảnh diễn ra tại địa điểm đó trong phần còn lại của game đều cho thấy đống đổ nát. Thế giới nhớ những gì bạn đã làm, bằng hình ảnh.
- Phong cách nghệ thuật tùy chỉnh nơi bạn tải lên tác phẩm tham chiếu và toàn bộ game thích nghi theo thẩm mỹ của bạn. Cùng câu chuyện, diện mạo hoàn toàn khác cho mỗi người chơi.
- Xuất sang định dạng khác. Hãy tưởng tượng hoàn thành game và xuất tất cả thành e-book có minh họa, truyện tranh, hay phim ngắn hoạt hình. Lượt chơi của bạn trở thành tác phẩm nghệ thuật có thể xuất bản.
Lớn hơn cả game
Điều đáng hào hứng nhất không phải khía cạnh game. Mà là truyện tương tác có minh họa AI đang trở thành một phương tiện sáng tạo hoàn toàn mới. Nó nằm đâu đó giữa game, văn học, nghệ thuật thị giác và sự tham gia cộng đồng. Và nó dễ tiếp cận với hầu như bất kỳ ai.
Một giáo viên có thể xây phiêu lưu lịch sử có minh họa cho lớp mà không cần biết vẽ hay lập trình. Một nhóm bạn có thể chơi RPG tùy chỉnh và mang về bộ sưu tập tác phẩm nghệ thuật độc nhất từ phiên chơi. Một thương hiệu có thể ra mắt chiến dịch hình ảnh tương tác mà không cần thuê studio hoạt hình.
Đó là sự thay đổi thực sự. Những câu chuyện bạn không chỉ đọc hay chơi, mà là những câu chuyện bạn nhìn thấy, được định hình bởi lựa chọn của bạn và được vẽ ra duy nhất mỗi lần.
Hãy tự trải nghiệm
Mỗi cảnh đều có minh họa, nhân vật của bạn giữ nguyên nhất quán xuyên suốt, và bạn có thể chơi một mình, với bạn bè, hay với cả cộng đồng trên web, Discord, Telegram và X.
Khám phá thế giới chia sẻ