游戏开发中的人工智能驱动叙事:自动化叙事、配音和音效设计
  • 25 February 2025
  • JasonBramble
  • 游戏世界新闻

人工智能正在迅速改变游戏开发,使得以规模化的方式生成、验证和交付内容的新方法成为可能。虽然人工智能已广泛用于程序化关卡生成、自适应难度和NPC行为,但我们现在将其应用于更动态的领域——自动化叙事和游戏驱动的叙事体验。

Gig Game Corp,我们正在开发驱动AI的系统,实时生成动态的、有声配音的游戏内容。我们的主要测试案例之一是**“我会撒谎吗?”,这是一款利用AI生成琐事问题、验证其准确性并合成真实语音的游戏,配有环境音效和音频后期处理。这种方法使我们能够创建一个自动化内容管道**,消除了手动编写问题、撰写角色对话和录制配音的需要,同时确保玩家体验的一致高质量。

本文概述了我们在构建该系统时采取的技术方法,我们如何验证AI生成的内容,以及我们如何将AI应用于声音工程以创造更具沉浸感的游戏体验。

步骤1:AI生成的问题和叙事创建

管道的第一步是内容生成。对于“我会撒谎吗?”,这意味着动态创建琐事问题、可能的答案和游戏主持人的对话。我们使用GPT-4生成结构化内容,格式为JSON,然后由其他AI模型进行处理和过滤,而不是手动策划数千个问题。

为了分解这一过程,我们遵循以下步骤:

  1. 主题生成 – AI根据预定义的难度级别和类别选择主题,生成真实和虚假的琐事主题。
  2. 问题和答案生成 – AI根据给定主题创建多项选择问题,确保包含一个正确答案和几个合理的错误答案
  3. 结构化输出格式化 – AI将生成的问题结构化为JSON模式,以便无缝集成到游戏引擎中。

AI生成的琐事问题的示例JSON输出

{  
  "question": "什么历史事件导致了世界上第一个 '外交恶作剧战争'?",  
  "answers": [  
    { "text": "法法战争", "isCorrect": false },  
    { "text": "1835年的托莱多战争", "isCorrect": true },  
    { "text": "1978年的冰岛鳕鱼战争", "isCorrect": false },  
    { "text": "1962年的企鹅条约", "isCorrect": false }  
  ],  
  "difficulty": "中等",  
  "category": "历史"  
}  

通过将输出结构化为JSON,我们可以高效地存储、验证和检索问题,实时启用一个大型、动态生成的问题池,确保多样性和可重玩性。

步骤2:AI驱动的验证和过滤

AI生成内容中最关键的挑战之一是质量控制。虽然语言模型在生成引人入胜的问题方面非常有能力,但它们并不总能保证事实准确性、平衡性或适当的措辞。为了解决这个问题,我们应用了多步骤验证过程

  1. 真实问题的事实检查 – AI生成的真实琐事问题通过一个经过训练的次级AI模型进行验证,以验证事实的正确性。如果问题未通过置信度阈值,则会被标记为审核或丢弃。
  2. 重复检测 – 我们使用Jaccard相似度和Levenshtein距离算法来检测和过滤与之前生成的问题过于相似的问题。这可以防止冗余,确保问题集的多样性。
  3. 难度调整 – AI评估问题是否与预期的难度级别一致。例如,“难”的问题应该根据历史玩家数据具有较低的正确回答概率。

通过实施这些保障措施,我们确保只有经过验证的高质量问题进入最终游戏。

步骤3:AI合成的配音和对话生成

一旦生成并验证了问题,下一步是通过AI生成的配音将其传递给玩家。我们不使用预录音频,而是采用文本转语音(TTS)技术,特别是ElevenLabs的AI驱动语音合成,使游戏中的主持人栩栩如生。

在调用ElevenLabs生成实际语音之前,我们首先使用OpenAI进行单独的AI处理,为问题介绍答案揭示创建结构化对话。这种方法确保每个组件都经过仔细控制,避免了意外偏差、不必要的详细说明或提前披露正确答案。

控制AI提示以防止超出范围和幻觉

为了保持准确性和结构,我们在每个AI提示中提供具体指示,明确规定:

  • AI应该如何开始 – 确保响应以清晰、结构化的格式开始,并具有与游戏的语气和风格一致的预定义介绍。
  • AI应该如何结束 – 明确指示AI在哪里停止,防止“超出范围”,即模型可能发明额外信息或试图预测玩家的反应。
  • 不应包含的内容 – 限制不必要的细节,例如早期答案提示、无关评论或推测性对话。

例如,在生成问题叙述时,我们将AI提示结构如下:

  • 以引人入胜的介绍开始,为琐事问题设定基调。
  • 清晰地呈现多项选择选项,确保它们保持中立。
  • 以预定义短语结束,例如**“你认为怎么样?”**,以防止AI对正确答案进行推测。

同样,在生成答案揭示叙述时,我们:

  • 首先重申玩家的选择并重述问题以保持连贯性。
  • 清晰地宣布正确答案,确保其事实准确。
  • 以简短的预定义响应结束,例如**“你答对了吗?”**,防止额外的、不必要的AI生成评论。

最小化AI幻觉风险

通过将问题和答案生成分成单独的AI处理并严格定义开始和结束点,我们消除了AI幻觉,这些幻觉可能无意中揭示答案或引入无关信息。如果我们允许AI在一个请求中生成完整的对话,它可能会试图“预测”结果,从而导致不必要的偏见、不一致或不必要的填充内容。

每个琐事问题由两个AI生成的主持角色叙述,每个角色具有独特的声音风格和个性。他们的对话是动态生成的,并遵循结构化格式。

AI生成对话的示例

{  
  "Conversation": [  
    { "VoiceId": "2", "Dialog": "好的,大家!这是你们的下一个问题……什么历史事件导致了世界上第一个 '外交恶作剧战争'?" },  
    { "VoiceId": "3", "Dialog": "哦,我喜欢一个好的恶作剧战争!这最好涉及橡皮鸡和假条约。" },  
    { "VoiceId": "2", "Dialog": "你的选项是……A) 法法战争,B) 1835年的托莱多战争,C) 1978年的冰岛鳕鱼战争,或D) 1962年的企鹅条约。" },  
    { "VoiceId": "3", "Dialog": "老实说,我希望是企鹅。那些小家伙真是无情。" }  
  ]  
}  

一旦结构化对话最终确定,我们将其发送给ElevenLabs进行高质量的语音合成,确保清晰、引人入胜且无错误的叙述,使游戏的AI生成主持人栩栩如生。通过以这种格式结构化AI生成的对话,我们消除了手动编写的需要,同时保持自然和动态的对话流

步骤4:AI驱动的声音工程和后期处理

创造沉浸式叙事体验的一个主要因素是声音设计。为了使AI生成的配音听起来更真实,我们应用了使用NAudio的音频处理技术,包括:

  • 背景人群噪声叠加 – 添加观众反应,如掌声、笑声或紧张的低语。
  • 动态声音效果 – 应用混响、回声或失真,以匹配不同的游戏环境。
  • 无线电风格过滤 – 修改频率范围以模拟复古广播。
  • 音频混合自动化 – 实时组合多个配音和音效。

特殊情况:处理场景过渡和非问题对话

除了生成琐事问题和答案揭示外,我们还使用AI创建场景过渡和关键游戏时刻的非问题对话,例如游戏介绍、得分更新、回合过渡和最终总结。这些片段需要不同的方法,因为它们不是围绕问题和答案格式构建的,而是用于设定舞台、吸引玩家并提供游戏元素之间的无缝流动

为了确保多样性和可重玩性,我们使用OpenAI生成每个场景的多个版本,允许每次游戏时不同的互动和语调变化。此外,我们随机编程切换角色以适应每个场景,确保互动感觉新鲜和动态。例如,在一次游戏中,得分更新可能由主要主持人和共同主持人传达,而在另一场游戏中,次要角色——如古怪的播音员、过于热情的制作人,甚至是实习生——可能接管,增加幽默和不可预测性。通过随机化角色分配,我们创造了多样化的互动,防止对话变得重复,使每个游戏会话独特。

为了保持结构并防止对话不一致,我们清晰定义每个场景的开始和结束,确保不同片段之间的过渡无缝。每个AI生成的脚本旨在与前后对话场景平滑连接,防止对话中的突兀或不自然的转变。我们使用预定义的引入/结束标记场景特定约束的组合,以确保AI生成的内容保持在预期叙事流的范围内。

一旦脚本最终确定,就像问题生成过程一样,它们也会使用ElevenLabs语音技术合成,并与环境音效和音频过渡混合,以增强沉浸感并区分场景。例如,结束序列将有一个观众欢呼的叠加,以模拟现场观众的能量,强化游戏的结尾。同时,预演后台场景将应用电话过滤,在音频上可听区分预介绍对话与主要游戏节目本身。这些音效和处理技术有助于创造更具吸引力和电影感的体验,使每个场景感觉独特,并增强整体制作质量。

我们未来扩展AI声音设计能力的计划

展望未来,我们计划通过开发更大的音效库和额外的音频过滤器扩展我们的AI驱动声音设计工具,使AI能够实时动态应用。这将使系统能够根据场景调整音频效果,无论是为空旷房间添加回声,还是为戏剧效果叠加风暴声。

我们还计划推出一个AI生成的老式广播叙事频道,该频道将使用这些工具创建自动化的恐怖和科幻音频剧。这些将作为我们AI叙事能力的技术演示和一种新的娱乐形式,展示AI如何动态生成故事、对话和完全混合的音景,而无需人工干预。

最后一个考虑:AI使用和成本效率

AI是动态叙事和内容生成的强大工具,但它带来了真实的成本——无论是计算资源还是财务开销。每条AI生成的语音线、实时互动或动态构建的场景都需要处理能力和API调用,这些成本会根据使用情况而增加。随着AI在游戏中的应用不断增长,理解和管理这些成本成为开发的关键部分。

为了平衡AI驱动的沉浸感与成本效率,我们正在设计两个版本的游戏,每个版本针对不同的用例进行了优化。

第一个版本将实时动态生成过渡场景对话,允许AI直接与玩家和团队按名称互动。该版本旨在在YouTube和Twitch等平台上进行直播,我们将游戏会话控制为单一、孤立的体验。由于它每个会话只运行一次,因此AI处理的成本保持在可控范围内。该版本通过允许AI生成的主持人与观众实时互动,提供了一个完全动态的体验,证明了成本的合理性。

然而,生成AI驱动的对话并不是瞬时的。平均而言,生成并将一行对话转换为语音需要4到7秒,成本为每次调用0.16到0.20美元。这要求我们仔细计划何时以及如何创建AI生成的内容,以避免干扰玩家体验。为了最小化明显的延迟,我们设计了系统,以在需要之前预加载内容或在自然暂停期间生成内容,例如在给玩家时间回答问题时。这确保了无缝体验,防止可能使玩家脱离游戏的中断。

为了应对成本问题,第二个版本在Gig.Game中,旨在支持高数量的私人游戏会话,而不会产生过高的成本。我们不再为每个会话生成实时AI对话,而是预先生成一组AI制作的过渡和对话片段,确保高质量、一致的体验,同时最小化即时AI处理。这使我们能够提供可扩展、成本效益高的游戏体验,而不牺牲沉浸感。

这里的关键要点是AI使用必须进行战略规划。虽然实时AI驱动的体验提供了无与伦比的参与感,但它们最适合于受控的单实例环境,如直播广播。相反,预生成的AI内容使得可扩展、可重复的游戏体验成为可能,而不会产生持续的AI处理成本。通过利用这两种方法,我们确保AI仍然是创新的推动者,而不是成本的瓶颈,同时保持沉浸式玩家体验所需的流畅性和参与感。

AI4 2025:展示AI叙事的实际应用

随着我们继续完善我们的AI驱动叙事引擎,我们正在探索超越琐事游戏的AI生成叙事体验的新应用,包括:

  • 自动化互动小说 – AI生成的分支叙事,根据玩家选择而变化。
  • AI指导的游戏配音 – 动态NPC实时对玩家行为作出反应。
  • AI驱动的实时游戏事件 – 游戏内故事自动演变,伴随AI生成的对话和音频。

我将在AI4 2025的拉斯维加斯,与大家分享其他人在AI驱动游戏开发中的创新。我还将进行我们的AI叙事技术的套房演示,展示AI如何自动化叙事生成、配音和声音工程,以增强游戏开发工作流程。

如果你对AI在游戏中的未来感兴趣,让我们联系。你认为AI在哪些方面对叙事影响最大?让我们讨论。

Previous Article

游戏节目的未来已经到来 - 而你被邀请了!

Next Article

令人兴奋的 Gig 游戏更新、开放 JS 库和 Mobo Bingo!