游戏开发中的人工智能驱动叙事：自动化叙事、配音和音效设计

25 February 2025
JasonBramble
游戏世界新闻

人工智能正在迅速改变游戏开发，使得以规模化的方式生成、验证和交付内容的新方法成为可能。虽然人工智能已广泛用于程序化关卡生成、自适应难度和NPC行为，但我们现在将其应用于更动态的领域——自动化叙事和游戏驱动的叙事体验。

在Gig Game Corp，我们正在开发驱动AI的系统，实时生成动态的、有声配音的游戏内容。我们的主要测试案例之一是**“我会撒谎吗？”，这是一款利用AI生成琐事问题、验证其准确性并合成真实语音的游戏，配有环境音效和音频后期处理。这种方法使我们能够创建一个自动化内容管道**，消除了手动编写问题、撰写角色对话和录制配音的需要，同时确保玩家体验的一致高质量。

本文概述了我们在构建该系统时采取的技术方法，我们如何验证AI生成的内容，以及我们如何将AI应用于声音工程以创造更具沉浸感的游戏体验。

步骤1：AI生成的问题和叙事创建

管道的第一步是内容生成。对于“我会撒谎吗？”，这意味着动态创建琐事问题、可能的答案和游戏主持人的对话。我们使用GPT-4生成结构化内容，格式为JSON，然后由其他AI模型进行处理和过滤，而不是手动策划数千个问题。

为了分解这一过程，我们遵循以下步骤：

主题生成 – AI根据预定义的难度级别和类别选择主题，生成真实和虚假的琐事主题。
问题和答案生成 – AI根据给定主题创建多项选择问题，确保包含一个正确答案和几个合理的错误答案。
结构化输出格式化 – AI将生成的问题结构化为JSON模式，以便无缝集成到游戏引擎中。

AI生成的琐事问题的示例JSON输出

{  
  "question": "什么历史事件导致了世界上第一个 '外交恶作剧战争'？",  
  "answers": [  
    { "text": "法法战争", "isCorrect": false },  
    { "text": "1835年的托莱多战争", "isCorrect": true },  
    { "text": "1978年的冰岛鳕鱼战争", "isCorrect": false },  
    { "text": "1962年的企鹅条约", "isCorrect": false }  
  ],  
  "difficulty": "中等",  
  "category": "历史"  
}

通过将输出结构化为JSON，我们可以高效地存储、验证和检索问题，实时启用一个大型、动态生成的问题池，确保多样性和可重玩性。

步骤2：AI驱动的验证和过滤

AI生成内容中最关键的挑战之一是质量控制。虽然语言模型在生成引人入胜的问题方面非常有能力，但它们并不总能保证事实准确性、平衡性或适当的措辞。为了解决这个问题，我们应用了多步骤验证过程：

真实问题的事实检查 – AI生成的真实琐事问题通过一个经过训练的次级AI模型进行验证，以验证事实的正确性。如果问题未通过置信度阈值，则会被标记为审核或丢弃。
重复检测 – 我们使用Jaccard相似度和Levenshtein距离算法来检测和过滤与之前生成的问题过于相似的问题。这可以防止冗余，确保问题集的多样性。
难度调整 – AI评估问题是否与预期的难度级别一致。例如，“难”的问题应该根据历史玩家数据具有较低的正确回答概率。

通过实施这些保障措施，我们确保只有经过验证的高质量问题进入最终游戏。

步骤3：AI合成的配音和对话生成

一旦生成并验证了问题，下一步是通过AI生成的配音将其传递给玩家。我们不使用预录音频，而是采用文本转语音（TTS）技术，特别是ElevenLabs的AI驱动语音合成，使游戏中的主持人栩栩如生。

在调用ElevenLabs生成实际语音之前，我们首先使用OpenAI进行单独的AI处理，为问题介绍和答案揭示创建结构化对话。这种方法确保每个组件都经过仔细控制，避免了意外偏差、不必要的详细说明或提前披露正确答案。

控制AI提示以防止超出范围和幻觉

为了保持准确性和结构，我们在每个AI提示中提供具体指示，明确规定：

AI应该如何开始 – 确保响应以清晰、结构化的格式开始，并具有与游戏的语气和风格一致的预定义介绍。
AI应该如何结束 – 明确指示AI在哪里停止，防止“超出范围”，即模型可能发明额外信息或试图预测玩家的反应。
不应包含的内容 – 限制不必要的细节，例如早期答案提示、无关评论或推测性对话。

例如，在生成问题叙述时，我们将AI提示结构如下：

以引人入胜的介绍开始，为琐事问题设定基调。
清晰地呈现多项选择选项，确保它们保持中立。
以预定义短语结束，例如**“你认为怎么样？”**，以防止AI对正确答案进行推测。

同样，在生成答案揭示叙述时，我们：

首先重申玩家的选择并重述问题以保持连贯性。
清晰地宣布正确答案，确保其事实准确。
以简短的预定义响应结束，例如**“你答对了吗？”**，防止额外的、不必要的AI生成评论。

最小化AI幻觉风险

通过将问题和答案生成分成单独的AI处理并严格定义开始和结束点，我们消除了AI幻觉，这些幻觉可能无意中揭示答案或引入无关信息。如果我们允许AI在一个请求中生成完整的对话，它可能会试图“预测”结果，从而导致不必要的偏见、不一致或不必要的填充内容。

每个琐事问题由两个AI生成的主持角色叙述，每个角色具有独特的声音风格和个性。他们的对话是动态生成的，并遵循结构化格式。

AI生成对话的示例

{  
  "Conversation": [  
    { "VoiceId": "2", "Dialog": "好的，大家！这是你们的下一个问题……什么历史事件导致了世界上第一个 '外交恶作剧战争'？" },  
    { "VoiceId": "3", "Dialog": "哦，我喜欢一个好的恶作剧战争！这最好涉及橡皮鸡和假条约。" },  
    { "VoiceId": "2", "Dialog": "你的选项是……A) 法法战争，B) 1835年的托莱多战争，C) 1978年的冰岛鳕鱼战争，或D) 1962年的企鹅条约。" },  
    { "VoiceId": "3", "Dialog": "老实说，我希望是企鹅。那些小家伙真是无情。" }  
  ]  
}

一旦结构化对话最终确定，我们将其发送给ElevenLabs进行高质量的语音合成，确保清晰、引人入胜且无错误的叙述，使游戏的AI生成主持人栩栩如生。通过以这种格式结构化AI生成的对话，我们消除了手动编写的需要，同时保持自然和动态的对话流。

步骤4：AI驱动的声音工程和后期处理

创造沉浸式叙事体验的一个主要因素是声音设计。为了使AI生成的配音听起来更真实，我们应用了使用NAudio的音频处理技术，包括：

背景人群噪声叠加 – 添加观众反应，如掌声、笑声或紧张的低语。
动态声音效果 – 应用混响、回声或失真，以匹配不同的游戏环境。
无线电风格过滤 – 修改频率范围以模拟复古广播。
音频混合自动化 – 实时组合多个配音和音效。

特殊情况：处理场景过渡和非问题对话

除了生成琐事问题和答案揭示外，我们还使用AI创建场景过渡和关键游戏时刻的非问题对话，例如游戏介绍、得分更新、回合过渡和最终总结。这些片段需要不同的方法，因为它们不是围绕问题和答案格式构建的，而是用于设定舞台、吸引玩家并提供游戏元素之间的无缝流动。

为了确保多样性和可重玩性，我们使用OpenAI生成每个场景的多个版本，允许每次游戏时不同的互动和语调变化。此外，我们随机编程切换角色以适应每个场景，确保互动感觉新鲜和动态。例如，在一次游戏中，得分更新可能由主要主持人和共同主持人传达，而在另一场游戏中，次要角色——如古怪的播音员、过于热情的制作人，甚至是实习生——可能接管，增加幽默和不可预测性。通过随机化角色分配，我们创造了多样化的互动，防止对话变得重复，使每个游戏会话独特。

为了保持结构并防止对话不一致，我们清晰定义每个场景的开始和结束，确保不同片段之间的过渡无缝。每个AI生成的脚本旨在与前后对话场景平滑连接，防止对话中的突兀或不自然的转变。我们使用预定义的引入/结束标记和场景特定约束的组合，以确保AI生成的内容保持在预期叙事流的范围内。

一旦脚本最终确定，就像问题生成过程一样，它们也会使用ElevenLabs语音技术合成，并与环境音效和音频过渡混合，以增强沉浸感并区分场景。例如，结束序列将有一个观众欢呼的叠加，以模拟现场观众的能量，强化游戏的结尾。同时，预演后台场景将应用电话过滤，在音频上可听区分预介绍对话与主要游戏节目本身。这些音效和处理技术有助于创造更具吸引力和电影感的体验，使每个场景感觉独特，并增强整体制作质量。

我们未来扩展AI声音设计能力的计划

展望未来，我们计划通过开发更大的音效库和额外的音频过滤器来扩展我们的AI驱动声音设计工具，使AI能够实时动态应用。这将使系统能够根据场景调整音频效果，无论是为空旷房间添加回声，还是为戏剧效果叠加风暴声。

我们还计划推出一个AI生成的老式广播叙事频道，该频道将使用这些工具创建自动化的恐怖和科幻音频剧。这些将作为我们AI叙事能力的技术演示和一种新的娱乐形式，展示AI如何动态生成故事、对话和完全混合的音景，而无需人工干预。

最后一个考虑：AI使用和成本效率

AI是动态叙事和内容生成的强大工具，但它带来了真实的成本——无论是计算资源还是财务开销。每条AI生成的语音线、实时互动或动态构建的场景都需要处理能力和API调用，这些成本会根据使用情况而增加。随着AI在游戏中的应用不断增长，理解和管理这些成本成为开发的关键部分。

为了平衡AI驱动的沉浸感与成本效率，我们正在设计两个版本的游戏，每个版本针对不同的用例进行了优化。

第一个版本将实时动态生成过渡场景对话，允许AI直接与玩家和团队按名称互动。该版本旨在在YouTube和Twitch等平台上进行直播，我们将游戏会话控制为单一、孤立的体验。由于它每个会话只运行一次，因此AI处理的成本保持在可控范围内。该版本通过允许AI生成的主持人与观众实时互动，提供了一个完全动态的体验，证明了成本的合理性。

然而，生成AI驱动的对话并不是瞬时的。平均而言，生成并将一行对话转换为语音需要4到7秒，成本为每次调用0.16到0.20美元。这要求我们仔细计划何时以及如何创建AI生成的内容，以避免干扰玩家体验。为了最小化明显的延迟，我们设计了系统，以在需要之前预加载内容或在自然暂停期间生成内容，例如在给玩家时间回答问题时。这确保了无缝体验，防止可能使玩家脱离游戏的中断。

为了应对成本问题，第二个版本在Gig.Game中，旨在支持高数量的私人游戏会话，而不会产生过高的成本。我们不再为每个会话生成实时AI对话，而是预先生成一组AI制作的过渡和对话片段，确保高质量、一致的体验，同时最小化即时AI处理。这使我们能够提供可扩展、成本效益高的游戏体验，而不牺牲沉浸感。

这里的关键要点是AI使用必须进行战略规划。虽然实时AI驱动的体验提供了无与伦比的参与感，但它们最适合于受控的单实例环境，如直播广播。相反，预生成的AI内容使得可扩展、可重复的游戏体验成为可能，而不会产生持续的AI处理成本。通过利用这两种方法，我们确保AI仍然是创新的推动者，而不是成本的瓶颈，同时保持沉浸式玩家体验所需的流畅性和参与感。

AI4 2025：展示AI叙事的实际应用

随着我们继续完善我们的AI驱动叙事引擎，我们正在探索超越琐事游戏的AI生成叙事体验的新应用，包括：

自动化互动小说 – AI生成的分支叙事，根据玩家选择而变化。
AI指导的游戏配音 – 动态NPC实时对玩家行为作出反应。
AI驱动的实时游戏事件 – 游戏内故事自动演变，伴随AI生成的对话和音频。

我将在AI4 2025的拉斯维加斯，与大家分享其他人在AI驱动游戏开发中的创新。我还将进行我们的AI叙事技术的套房演示，展示AI如何自动化叙事生成、配音和声音工程，以增强游戏开发工作流程。

如果你对AI在游戏中的未来感兴趣，让我们联系。你认为AI在哪些方面对叙事影响最大？让我们讨论。

游戏开发中的人工智能驱动叙事：自动化叙事、配音和音效设计

步骤1：AI生成的问题和叙事创建

AI生成的琐事问题的示例JSON输出

步骤2：AI驱动的验证和过滤

步骤3：AI合成的配音和对话生成

控制AI提示以防止超出范围和幻觉

最小化AI幻觉风险

AI生成对话的示例

步骤4：AI驱动的声音工程和后期处理

特殊情况：处理场景过渡和非问题对话

我们未来扩展AI声音设计能力的计划

最后一个考虑：AI使用和成本效率

AI4 2025：展示AI叙事的实际应用

发布类别

最受欢迎的帖子

28 February 2025

16 August 2024

06 August 2024

10 August 2024

关于 Gig Game Corp

快速链接

我们的服务

游戏开发中的人工智能驱动叙事：自动化叙事、配音和音效设计

步骤1：AI生成的问题和叙事创建

AI生成的琐事问题的示例JSON输出

步骤2：AI驱动的验证和过滤

步骤3：AI合成的配音和对话生成

控制AI提示以防止超出范围和幻觉

最小化AI幻觉风险

AI生成对话的示例

步骤4：AI驱动的声音工程和后期处理

特殊情况：处理场景过渡和非问题对话

我们未来扩展AI声音设计能力的计划

最后一个考虑：AI使用和成本效率

AI4 2025：展示AI叙事的实际应用

发布类别

最受欢迎的帖子

28 February 2025

16 August 2024

06 August 2024

10 August 2024

关于 Gig Game Corp

快速链接

社交链接

我们的服务