2025 年 12 月,字节跳动 Seed 团队在 arXiv 发布了 Seedance 1.5 pro 的技术报告,详细披露了其核心架构设计。这份报告不仅是 Seedance 2.0 商业版的技术基础,也代表了当前视频生成领域的最新研究方向。
核心突破:原生音视频联合生成
Seedance 1.5 pro 最核心的创新是实现了真正意义上的原生(Native)音视频联合生成。
什么是「原生」联合生成?
市面上大多数视频生成模型的「音频支持」是两阶段流程:
- 先生成无声视频
- 再用独立的音频模型配音或配乐
这种方案的根本缺陷在于,视频和音频是两个独立生成的序列,节奏、情绪、物理同步都依赖后期对齐,效果天然受限。
Seedance 1.5 pro 的方案是在同一个模型内让音频和视频协同扩散生成——它们共享语义上下文,相互感知,天然同步。
架构设计:双分支扩散 Transformer
整体结构
论文提出了一种 Dual-Branch Diffusion Transformer 架构:
输入条件(文本 / 图像 / 音频 / 视频参考)
│
┌──────┴──────┐
视频分支 音频分支
(Video Branch) (Audio Branch)
│ │
└──────┬────────┘
跨模态联合模块
(Cross-Modal Joint Module)
│
音视频联合输出
关键组件
双分支设计(Dual-Branch):
- 视频分支:处理视觉信息的扩散过程,继承 Seedance 1.0 的视频生成能力
- 音频分支:处理音频信息的扩散过程,独立建模声学特征
- 两个分支并行运行,互不干扰各自的专属信息
跨模态联合模块(Cross-Modal Joint Module):
- 在扩散过程的关键时间步注入跨模态信息
- 视频分支「看到」音频的语义状态(让画面与音效节奏同步)
- 音频分支「感知」视频的视觉状态(让音效与画面内容匹配)
多阶段训练策略(Multi-Stage Training):
- 阶段一:独立预训练视频分支和音频分支,各自建立高质量的单模态生成能力
- 阶段二:联合微调,通过跨模态模块学习音视频的对齐和协同
- 阶段三:用高质量音视频对齐数据进行强化,提升同步精度
这种渐进式训练避免了「冷启动」问题,充分利用了已有的大规模视频和音频预训练数据。
四模态输入系统
Seedance 1.5 pro 支持四种输入模态,可以任意组合:
| 输入模态 | 作用 | 典型用例 |
|---|---|---|
| 文本 | 描述内容、场景、动作、情绪 | 纯文字提示生成视频 |
| 图像 | 提供视觉风格和构图的参考锚点 | 以参考图为起点生成视频 |
| 音频 | 指定音效风格、音乐节奏或人声特征 | 输入音乐生成与节拍同步的视频 |
| 视频 | 复用运动模式、镜头语言或整体风格 | 风格迁移、视频续写、运动参考 |
组合使用示例:
输入:
- 文本:「雨中奔跑的少女,镜头跟随」
- 音频:一段雨声 + 轻快音乐
- 图像:参考人物外观
输出:
- 视频:人物运动与镜头跟随语义一致
- 音频:雨声、脚步声、音乐节奏与视频帧速率自然同步
技术挑战与解决方案
挑战 1:音视频对齐精度
音频和视频的时间分辨率不同(视频 24/30fps,音频 44100Hz),如何在扩散过程中精确对齐是核心技术难题。
解决方案:跨模态联合模块使用了自适应时间步对齐机制,将音频信号降采样到与视频帧对应的时间维度,同时保留完整的频域信息。
挑战 2:大规模音视频训练数据
高质量、时间精确对齐的音视频数据远比纯视频数据稀缺。
解决方案:结合三种数据来源:
- 互联网视频(自然对齐的音视频)
- 专业影视素材(高质量但需要版权处理)
- 数据增强生成的合成对(用已有模型生成音视频对,再筛选高质量样本)
挑战 3:不同模态的质量一致性
避免出现「视频质量高但音频质量差」或反之的情况。
解决方案:引入多维度联合质量评估模型,对音视频对的视觉质量、音频质量和跨模态同步性进行联合打分,只有三个维度都通过阈值的样本才进入训练集。
评测基准:SeedVideoBench-2.0
为了评估多模态音视频生成能力,团队构建了专门的评测基准 SeedVideoBench-2.0,新增了以下维度:
| 评测维度 | 评测内容 |
|---|---|
| 音视频同步性 | 音效与画面物理事件的时间对齐精度 |
| 音频语义一致性 | 生成的音频内容与视频场景语义的匹配程度 |
| 音频质量 | 独立的音频清晰度、自然度评分 |
| 跨模态条件遵循 | 模型对音频输入条件的遵从程度 |
Seedance 1.5 pro → Seedance 2.0
Seedance 1.5 pro 是学术论文中的模型命名,对应官网发布的 Seedance 2.0 商业产品版本。两者的对应关系:
| 技术报告 | 商业产品 | 发布时间 |
|---|---|---|
| Seedance 1.0 | Seedance 1.0 | 2025 年 6 月 |
| Seedance 1.5 pro | Seedance 2.0 | 2025 年 12 月起 |
对行业的影响
Seedance 1.5 pro 的架构被第三方研究引用证明其商业影响力已超出学术范畴——2026 年 2 月的 VII 对抗攻击研究中,将 Seedance-1.5-pro 与 Kling-v2.5-turbo、Gemini Veo-3.1 和 PixVerse-V5 并列为「四大主流商业 I2V 模型」,这表明 Seedance 已成为行业标杆之一。
原文:Seedance 1.5 pro - arXiv:2512 / ByteDance Seed | 来源:arXiv 技术报告 + ByteDance Seed 官方网站