Step-Audio-AQAA – StepFun推出的端到端大音频语言模型

Step-Audio-AQAA是什么

Step-Audio-AQAA 是 StepFun 团队推出的端到端大型音频语言模型,专门用于音频查询-音频回答(AQAA)任务。能直接处理音频输入生成自然、准确的语音回答,无需依赖传统的自动语音识别(ASR)和文本到语音(TTS)模块,简化了系统架构并消除了级联错误。Step-Audio-AQAA 的训练过程包括多模态预训练、监督微调(SFT)、直接偏好优化(DPO)以及模型合并。通过这些方法,模型在语音情感控制、角色扮演、逻辑推理等复杂任务中表现出色。在 StepEval-Audio-360 基准测试中,Step-Audio-AQAA 在多个关键维度上超越了现有的 LALM 模型,展现了在端到端语音交互中的强大潜力。

Step-Audio-AQAA

Step-Audio-AQAA的主要功能

  • 直接处理音频输入:能直接从原始音频输入生成语音回答,无需依赖传统的自动语音识别(ASR)和文本到语音(TTS)模块。
  • 无缝语音交互:支持从语音到语音的交互,用户可以用语音提问,模型直接以语音回答,提升交互的自然性和流畅性。
  • 情感语调调整:支持在句子级别调整语音的情感语调,例如表达高兴、悲伤或严肃等情绪。
  • 语速控制:用户可以根据需要调整语音回答的速度,使其更符合场景需求。
  • 音色和音调控制:能根据用户指令调整语音的音色和音调,适应不同的角色或场景。
  • 多语言交互:支持中文、英语、日语等多种语言,满足不同用户的语言需求。
  • 方言支持:涵盖中文的四川话、粤语等方言,提升模型在特定地区的适用性。
  • 语音情感控制:能根据上下文和用户指令,生成带有特定情感的语音回答。
  • 角色扮演:支持在对话中扮演特定角色,例如客服、教师、朋友等,生成符合角色特征的语音回答。
  • 逻辑推理和知识问答:能处理复杂的逻辑推理任务和知识问答,生成准确的语音回答。
  • 高质量语音输出:通过神经声码器生成高保真、自然流畅的语音波形,提升用户体验。
  • 语音连贯性:在长句或段落生成中保持语音的连贯性和一致性,避免语音断续或突变。
  • 文本与语音交错输出:支持文本和语音的交错输出,用户可以根据需要选择语音或文本回答。
  • 多模态输入理解:能理解包含语音和文本的混合输入,生成相应的语音回答。

Step-Audio-AQAA的技术原理

  • 双码本音频分词器:将输入音频信号转换为结构化的标记序列。包含两个分词器:语言分词器提取语音的音素和语言属性,以 16.7 Hz 的频率采样,码本大小为 1024;语义分词器捕捉语音的声学特征,如情感和语调,以 25 Hz 的频率采样,码本大小为 4096。能更好地捕捉语音中的复杂信息。
  • 骨干 LLM:使用预训练的 1300 亿参数多模态 LLM(Step-Omni),预训练数据涵盖文本、语音和图像三种模态。将双码本音频标记嵌入到统一的向量空间中,通过多个 Transformer 块进行深度语义理解和特征提取。
  • 神经声码器:将生成的音频标记合成为自然、高质量的语音波形。采用 U-Net 架构,结合 ResNet-1D 层和 Transformer 块,能高效地将离散的音频标记转换为连续的语音波形。

Step-Audio-AQAA的项目地址

  • HuggingFace模型库:https://huggingface.co/stepfun-ai/Step-Audio-AQAA
  • arXiv技术论文:https://arxiv.org/pdf/2506.08967

Step-Audio-AQAA的应用场景

  • 情感陪伴机器人:根据用户的情绪自动调节回应语气,提供情感支持和陪伴。
  • 多语言智能客服:直接处理方言语音查询,支持多种语言(如中文、英语、日语等)。
  • 游戏 NPC 交互:实时生成带情绪变化的语音反馈。在单轮对话中实现情感、语速的动态切换。
  • 智能语音助手:支持语音查询和语音回答,提供实时信息查询、日程提醒等服务。
  • 教育与娱乐:用于教育场景中的语音教学、故事创作、诗歌朗诵等。能根据用户需求灵活切换语音或文本回答。
© 版权声明
Trae

相关文章

问小白

暂无评论

暂无评论...