2024 年 9 月,字节跳动 Seed 团队发布了 Seed-Music——一套高质量音乐生成系统,支持细粒度风格控制。与依赖单一建模方法的系统不同,Seed-Music 提出了一个统一框架,适配音乐人多样化的创作工作流。
三大核心技术贡献
1. 自回归语言模型(AR LM)音乐生成
基于自回归语言模型(LM)的方法,支持多样化、多模态用户输入生成高质量音乐:
- 支持歌词 + 风格描述的文本输入
- 支持音频提示(音频延续和音频风格迁移两种模式)
- 生成带有表现力人声的音乐,覆盖多种语言
2. 扩散模型音乐编辑
基于扩散(Diffusion)的方法,支持音符级别的音乐音频精细编辑:
- 歌词编辑:修改已录制歌曲的歌词,保持人声旋律和背景音轨不变
- 旋律编辑:修改歌曲旋律,保持歌词和背景音轨不变
3. 零样本歌声转换(Zero-Shot SVC)
仅需目标用户 10 秒的演唱或说话录音,即可将参考声音转换为富有表现力的演唱表演:
- 精准保留声音特征(音色、音域)
- 支持从说话声音到演唱声音的跨模态转换
技术框架详解
Lyrics2Song(歌词生成歌曲)
将自然语言转化为音乐的通用任务:
短片段音频生成(Shortform):
- 生成带有表现力人声和适配背景音轨的短片段
- 覆盖多语言(中文、英文等)
长片段音频生成(Longform):
- 可生成完整长度的音乐作品
- 保持旋律连贯性、风格一致性和长期结构
音频提示(Audio Prompting):
- 音频延续(Audio Continuation):将给定音频片段延续下去
- 音频风格迁移(Audio Style Transfer):将一段音频的风格迁移到新内容
纯器乐生成:无人声歌词输入时,自动生成纯器乐音乐。
Lyrics2Leadsheet2Song(歌词 → 乐谱 → 歌曲)
Seed-Music 提出了一种新颖的导谱 Token 编解码器(Lead Sheet Token Codec),将符号化表示统一为对人类可读且对 LM/扩散模型友好的形式:
歌词文本
↓
乐谱 Token(人类可读,可编辑)
↓
完整音乐(Leadsheet2Song)
Lyrics2Leadsheet(歌词生成乐谱):
- 文本输入转换为乐谱 Token 时,音乐人可以检查和修改
- 支持音符对齐的音素(phoneme)和多轨乐器声部
Leadsheet2Song(乐谱生成歌曲):
- 乐谱 Token 是类 MIDI 但完全兼容现代 LM 和扩散模型的中间表示
- 提供了「先规划,后生成」的创作工作流
Leadsheet2Vocals(乐谱生成人声):
- 配置为仅包含人声属性,只渲染人声轨道
- 支持拓展到其他乐器轨道
音乐编辑(Music Editing)
全扩散流水线(Fully Diffusion Pipeline),适合音乐编辑和后期制作:
| 编辑类型 | 功能 | 保留内容 |
|---|---|---|
| 歌词编辑 | 修改已录制歌曲的歌词 | 人声旋律 + 背景音轨 |
| 旋律编辑 | 修改旋律 | 歌词 + 背景音轨 |
这意味着创作者可以:
- 拿到一首歌,改掉其中一句歌词,整首歌其余部分自然衔接
- 修改旋律走向,歌词发音和背景音乐保持稳定
零样本歌声转换(Singing Voice Conversion)
输入:目标声音 10 秒录音(演唱或说话均可)
输入:要转换的原始演唱片段
↓
输出:以目标声音演唱原始内容
只需极少量参考音频(10 秒),精准捕捉声音特征,适合:
- 隐私保护场景(将真实人声替换为 AI 声音)
- 角色配音(将某段旋律转换为特定角色的声音)
- 创意翻唱(用不同音色演绎同一旋律)
与竞品对比
| 能力维度 | Seed-Music | Suno v4 | Udio | MusicGen |
|---|---|---|---|---|
| 音符级编辑 | ✅ Diffusion 精细编辑 | ❌ | ❌ | ❌ |
| 乐谱中间表示 | ✅ Lead Sheet Tokens | ❌ | ❌ | ❌ |
| 零样本歌声转换 | ✅ 10 秒录音 | ❌ | ❌ | ❌ |
| 多语言人声 | ✅ | ✅ 英文为主 | ✅ | ❌ |
| 旋律编辑 | ✅ | ❌ | ❌ | ❌ |
| 开源 | 部分(技术报告) | ❌ | ❌ | ✅ |
学术贡献
Seed-Music 技术报告发表于 arXiv(2024 年 9 月),arxiv.org/abs/2409.09214。
主要学术贡献:
- 统一框架同时支持 AR LM 和 Diffusion 两种建模范式
- 提出 Lead Sheet Token 这一新型音乐中间表示
- 首次展示高质量零样本歌声转换(仅需 10 秒参考)
- 展示音符级精细扩散编辑(分离修改歌词/旋律/背景)
与字节 AI 生态的关系
Seed-Music 是 ByteDance Seed 语音方向团队的研究成果,与字节旗下音乐创作应用汽水音乐、短视频平台抖音/TikTok的 AI 配乐功能技术同源。
原文:Seed Music - ByteDance Seed | 来源:ByteDance Seed 官方网站