字节跳动 Seed Music 技术解析：统一框架音乐生成、零样本歌声转换与音符级编辑

2024 年 9 月，字节跳动 Seed 团队发布了 Seed-Music——一套高质量音乐生成系统，支持细粒度风格控制。与依赖单一建模方法的系统不同，Seed-Music 提出了一个统一框架，适配音乐人多样化的创作工作流。

三大核心技术贡献

1. 自回归语言模型（AR LM）音乐生成

基于自回归语言模型（LM）的方法，支持多样化、多模态用户输入生成高质量音乐：

支持歌词 + 风格描述的文本输入
支持音频提示（音频延续和音频风格迁移两种模式）
生成带有表现力人声的音乐，覆盖多种语言

2. 扩散模型音乐编辑

基于扩散（Diffusion）的方法，支持音符级别的音乐音频精细编辑：

歌词编辑：修改已录制歌曲的歌词，保持人声旋律和背景音轨不变
旋律编辑：修改歌曲旋律，保持歌词和背景音轨不变

3. 零样本歌声转换（Zero-Shot SVC）

仅需目标用户 10 秒的演唱或说话录音，即可将参考声音转换为富有表现力的演唱表演：

精准保留声音特征（音色、音域）
支持从说话声音到演唱声音的跨模态转换

技术框架详解

Lyrics2Song（歌词生成歌曲）

将自然语言转化为音乐的通用任务：

短片段音频生成（Shortform）：

生成带有表现力人声和适配背景音轨的短片段
覆盖多语言（中文、英文等）

长片段音频生成（Longform）：

可生成完整长度的音乐作品
保持旋律连贯性、风格一致性和长期结构

音频提示（Audio Prompting）：

音频延续（Audio Continuation）：将给定音频片段延续下去
音频风格迁移（Audio Style Transfer）：将一段音频的风格迁移到新内容

纯器乐生成：无人声歌词输入时，自动生成纯器乐音乐。

Lyrics2Leadsheet2Song（歌词 → 乐谱 → 歌曲）

Seed-Music 提出了一种新颖的导谱 Token 编解码器（Lead Sheet Token Codec），将符号化表示统一为对人类可读且对 LM/扩散模型友好的形式：

歌词文本
    ↓
乐谱 Token（人类可读，可编辑）
    ↓  
完整音乐（Leadsheet2Song）

Lyrics2Leadsheet（歌词生成乐谱）：

文本输入转换为乐谱 Token 时，音乐人可以检查和修改
支持音符对齐的音素（phoneme）和多轨乐器声部

Leadsheet2Song（乐谱生成歌曲）：

乐谱 Token 是类 MIDI 但完全兼容现代 LM 和扩散模型的中间表示
提供了「先规划，后生成」的创作工作流

Leadsheet2Vocals（乐谱生成人声）：

配置为仅包含人声属性，只渲染人声轨道
支持拓展到其他乐器轨道

音乐编辑（Music Editing）

全扩散流水线（Fully Diffusion Pipeline），适合音乐编辑和后期制作：

编辑类型	功能	保留内容
歌词编辑	修改已录制歌曲的歌词	人声旋律 + 背景音轨
旋律编辑	修改旋律	歌词 + 背景音轨

这意味着创作者可以：

拿到一首歌，改掉其中一句歌词，整首歌其余部分自然衔接
修改旋律走向，歌词发音和背景音乐保持稳定

零样本歌声转换（Singing Voice Conversion）

输入：目标声音 10 秒录音（演唱或说话均可）
输入：要转换的原始演唱片段
   ↓
输出：以目标声音演唱原始内容

只需极少量参考音频（10 秒），精准捕捉声音特征，适合：

隐私保护场景（将真实人声替换为 AI 声音）
角色配音（将某段旋律转换为特定角色的声音）
创意翻唱（用不同音色演绎同一旋律）

与竞品对比

能力维度	Seed-Music	Suno v4	Udio	MusicGen
音符级编辑	✅ Diffusion 精细编辑	❌	❌	❌
乐谱中间表示	✅ Lead Sheet Tokens	❌	❌	❌
零样本歌声转换	✅ 10 秒录音	❌	❌	❌
多语言人声	✅	✅ 英文为主	✅	❌
旋律编辑	✅	❌	❌	❌
开源	部分（技术报告）	❌	❌	✅

学术贡献

Seed-Music 技术报告发表于 arXiv（2024 年 9 月），arxiv.org/abs/2409.09214。

主要学术贡献：

统一框架同时支持 AR LM 和 Diffusion 两种建模范式
提出 Lead Sheet Token 这一新型音乐中间表示
首次展示高质量零样本歌声转换（仅需 10 秒参考）
展示音符级精细扩散编辑（分离修改歌词/旋律/背景）

与字节 AI 生态的关系

Seed-Music 是 ByteDance Seed 语音方向团队的研究成果，与字节旗下音乐创作应用汽水音乐、短视频平台抖音/TikTok的 AI 配乐功能技术同源。

原文：Seed Music - ByteDance Seed | 来源：ByteDance Seed 官方网站

字节跳动 Seed Music：统一框架音乐生成、歌声转换与音符级精准编辑技术解析

三大核心技术贡献

1. 自回归语言模型（AR LM）音乐生成

2. 扩散模型音乐编辑

3. 零样本歌声转换（Zero-Shot SVC）

技术框架详解

Lyrics2Song（歌词生成歌曲）

Lyrics2Leadsheet2Song（歌词 → 乐谱 → 歌曲）

音乐编辑（Music Editing）

零样本歌声转换（Singing Voice Conversion）

与竞品对比

学术贡献

与字节 AI 生态的关系

相关文章推荐

三大核心技术贡献#

1. 自回归语言模型（AR LM）音乐生成#

2. 扩散模型音乐编辑#

3. 零样本歌声转换（Zero-Shot SVC）#

技术框架详解#

Lyrics2Song（歌词生成歌曲）#

Lyrics2Leadsheet2Song（歌词 → 乐谱 → 歌曲）#

音乐编辑（Music Editing）#

零样本歌声转换（Singing Voice Conversion）#

与竞品对比#

学术贡献#

与字节 AI 生态的关系#

相关文章推荐

三大核心技术贡献

1. 自回归语言模型（AR LM）音乐生成

2. 扩散模型音乐编辑

3. 零样本歌声转换（Zero-Shot SVC）

技术框架详解

Lyrics2Song（歌词生成歌曲）

Lyrics2Leadsheet2Song（歌词 → 乐谱 → 歌曲）

音乐编辑（Music Editing）

零样本歌声转换（Singing Voice Conversion）

与竞品对比

学术贡献

与字节 AI 生态的关系