豆包同声传译 2.0 驱动

AI 驱动的中英
实时同声传译

更聪明的断句控制，更低的传译延迟，支持声音复刻与情感调节。专业级同传体验，戴上耳机即刻开启。

建议佩戴耳机使用，获得最佳同传效果

核心功能特性

集成前沿 AI 技术，为您提供专业级实时同传解决方案

豆包 2.0 声音克隆

采用豆包同声传译 2.0 模型实现实时零样本音色克隆，完美复刻说话人声音特征。

超低延迟传译

优化的音频处理管线，实现毫秒级响应速度，让跨语言交流如同母语对话般自然。

MiniMax 音色配置

基于 MiniMax 平台的多样化音色选择，支持语速、音量、音调、情绪等多维度参数精细调节。

智能长度控制

自动优化译文长度与节奏，避免信息堆积，保持听觉舒适度与理解效率。

回声消除技术

内置先进回声消除算法，外放场景下避免音频反馈，但建议使用耳机获得最佳音质。

双模型协同工作

豆包 2.0 负责声音克隆，MiniMax 提供丰富音色库，两大平台优势互补，满足不同使用场景。

声音克隆技术

双平台声音克隆方案：MiniMax 提供可配置参数的音色克隆，豆包 2.0 提供实时跟随说话人音色

实时跟随说话人

豆包 2.0 模型

实时零样本音色克隆，无需预先训练，自动捕捉并复刻说话人的独特音色特征。此模式下不支持参数调节，完全匹配原声表现。

可配置音色克隆

MiniMax 平台

上传音频文件或在线录制语音，系统将学习并生成专属音色模型。支持 MP3、WAV、M4A 格式，时长 10 秒至 5 分钟。支持语速、音量、音调、情绪等参数精细调节。

音色克隆流程

选择克隆方式

上传音频文件或在线录制语音样本

AI 分析音色

系统自动提取音色特征与语音风格

生成专属音色

创建个性化音色模型，可随时调用

音色参数调节

基于 MiniMax 平台的音色配置，精细化控制语音输出

可调节参数

MiniMax 平台

speedfloat

范围: [0.5, 2]•默认: 1.0

合成音频的语速，取值越大，语速越快

volfloat

范围: (0, 10]•默认: 1.0

合成音频的音量，取值越大，音量越高

pitchint

范围: [-12, 12]•默认: 0

合成音频的语调，0 为原音色输出

emotionstring

范围: 7 种情绪•默认: calm

控制合成语音的情绪表达

注意：仅在使用 MiniMax 平台音色时支持参数调节。选择"跟随说话人音色"（豆包 2.0 模型）时，系统将自动匹配原声特征，不支持手动调节参数。

情绪控制

支持 7 种情绪模式，让 AI 语音更具表现力与感染力，适应不同交流场景的情感需求。

高兴

悲伤

愤怒

害怕

厌恶

惊讶

中性

回声消除建议

外放情况下需打开回声消除功能，避免输出音频再次被录入造成反馈。但回声消除会引起一定的音质损失，强烈建议佩戴耳机使用并关闭回声消除，以获得最佳音质与同传体验。

准备好体验专业级
AI 同声传译了吗？

戴上耳机，开启实时中英同传，让语言不再成为沟通的障碍

AI 驱动的中英实时同声传译