Step-Audio-AQAA – StepFun推出的端到端大音频语言模型

0 2

Step-Audio-AQAA是什么

Step-Audio-AQAA 是 StepFun 团队推出的端到端大型音频语言模型，专门用于音频查询-音频回答（AQAA）任务。能直接处理音频输入生成自然、准确的语音回答，无需依赖传统的自动语音识别（ASR）和文本到语音（TTS）模块，简化了系统架构并消除了级联错误。Step-Audio-AQAA 的训练过程包括多模态预训练、监督微调（SFT）、直接偏好优化（DPO）以及模型合并。通过这些方法，模型在语音情感控制、角色扮演、逻辑推理等复杂任务中表现出色。在 StepEval-Audio-360 基准测试中，Step-Audio-AQAA 在多个关键维度上超越了现有的 LALM 模型，展现了在端到端语音交互中的强大潜力。

Step-Audio-AQAA的主要功能

直接处理音频输入：能直接从原始音频输入生成语音回答，无需依赖传统的自动语音识别（ASR）和文本到语音（TTS）模块。
无缝语音交互：支持从语音到语音的交互，用户可以用语音提问，模型直接以语音回答，提升交互的自然性和流畅性。
情感语调调整：支持在句子级别调整语音的情感语调，例如表达高兴、悲伤或严肃等情绪。
语速控制：用户可以根据需要调整语音回答的速度，使其更符合场景需求。
音色和音调控制：能根据用户指令调整语音的音色和音调，适应不同的角色或场景。
多语言交互：支持中文、英语、日语等多种语言，满足不同用户的语言需求。
方言支持：涵盖中文的四川话、粤语等方言，提升模型在特定地区的适用性。
语音情感控制：能根据上下文和用户指令，生成带有特定情感的语音回答。
角色扮演：支持在对话中扮演特定角色，例如客服、教师、朋友等，生成符合角色特征的语音回答。
逻辑推理和知识问答：能处理复杂的逻辑推理任务和知识问答，生成准确的语音回答。
高质量语音输出：通过神经声码器生成高保真、自然流畅的语音波形，提升用户体验。
语音连贯性：在长句或段落生成中保持语音的连贯性和一致性，避免语音断续或突变。
文本与语音交错输出：支持文本和语音的交错输出，用户可以根据需要选择语音或文本回答。
多模态输入理解：能理解包含语音和文本的混合输入，生成相应的语音回答。

Step-Audio-AQAA的技术原理

双码本音频分词器：将输入音频信号转换为结构化的标记序列。包含两个分词器：语言分词器提取语音的音素和语言属性，以 16.7 Hz 的频率采样，码本大小为 1024；语义分词器捕捉语音的声学特征，如情感和语调，以 25 Hz 的频率采样，码本大小为 4096。能更好地捕捉语音中的复杂信息。
骨干 LLM：使用预训练的 1300 亿参数多模态 LLM（Step-Omni），预训练数据涵盖文本、语音和图像三种模态。将双码本音频标记嵌入到统一的向量空间中，通过多个 Transformer 块进行深度语义理解和特征提取。
神经声码器：将生成的音频标记合成为自然、高质量的语音波形。采用 U-Net 架构，结合 ResNet-1D 层和 Transformer 块，能高效地将离散的音频标记转换为连续的语音波形。