音频怪物

使用帮助

音频怪物支持标准合成、多角色对话、批量生成三种模式,适用于视频配音、有声书、课程制作等多种场景。

返回编辑器

三种工作模式

常见使用场景

🎬

视频配音

为短视频、课程、Vlog 生成旁白或解说

批量模式

操作步骤

  1. 1整理好视频的旁白/解说文本,按段落拆分
  2. 2在编辑器左侧选择合适的音色(推荐试听几个找到最匹配的风格)
  3. 3调整语速和情感标签,如 "解说" 或 "gentle"
  4. 4使用「批量模式」将每段文本分行导入,一次性生成所有片段
  5. 5下载全部音频,导入剪映 / PR / 达芬奇等软件,对齐时间轴

💡 小技巧

· 批量导入时每行对应一段,建议按视频场景切分,方便后期对齐

· 如果旁白较长,可先在标准模式试听效果,满意后再批量生成

· 导出格式选 MP3 兼容性最好,WAV 音质更高但文件较大

📖

有声书 / 小说演播

为小说或故事内容生成多角色有声版本

对话模式

操作步骤

  1. 1准备好小说章节文本,识别出其中的角色对话
  2. 2切换到「对话模式」,点击「快速开始」创建角色
  3. 3为每个角色分配不同音色(如男主用低沉音色,女主用清亮音色)
  4. 4将台词按角色分行填入,或使用「导入剧本」功能批量导入
  5. 5点击「生成对话」,系统按顺序合成每行台词
  6. 6下载全部音频,用音频软件拼接成完整章节

💡 小技巧

· 剧本导入格式:每行 "角色名:台词内容",支持中英文冒号

· 可为每个角色单独设置情感标签,让表演更有层次

· 旁白部分建议单独用一个"旁白"角色,选用中性稳重的音色

🎙️

播客 / 广播节目

生成播客开场白、广告语或节目片段

标准模式

操作步骤

  1. 1在「标准模式」输入开场白或广告文案
  2. 2选择播客风格的音色,调整语速(建议 0.9–1.0 倍速,自然流畅)
  3. 3添加情感标签如 "confident" 或 "warm" 提升感染力
  4. 4试听满意后下载,导入播客制作软件(如 GarageBand、Audacity)

💡 小技巧

· 播客通常需要较自然的语调,避免使用过于夸张的情感标签

· 可以用「预设管理」保存常用的音色+参数组合,下次直接调用

· 多段内容用批量模式,效率更高

🎓

在线课程 / 教学内容

为 PPT、课件或教学视频生成讲解音频

批量模式

操作步骤

  1. 1将每张 PPT 或每个知识点的讲解文字整理好
  2. 2使用「批量模式」,每条对应一张幻灯片或一个知识点
  3. 3选择清晰、专业的音色,语速可适当放慢(0.85–0.95 倍速)
  4. 4批量生成后,按编号顺序导入视频制作工具

💡 小技巧

· 教学内容建议语速稍慢,让学生有时间理解

· 专业术语较多时,可在文本中加入适当停顿标点(逗号、句号)

· 批量导出的文件按序号命名,方便在视频软件中排序

📱

App / 产品演示

为产品 Demo 视频或应用内语音提示生成音频

标准模式 / 批量模式

操作步骤

  1. 1整理产品演示的旁白脚本,或 App 内需要的提示语列表
  2. 2选择与产品调性匹配的音色(科技感产品推荐清亮现代的音色)
  3. 3短提示语用「批量模式」一次性生成,旁白用「标准模式」
  4. 4下载后集成到产品或演示视频中

💡 小技巧

· 系统提示音建议简短有力,避免超过 10 个字

· 可以用 VoiceDesign 模式用自然语言描述想要的音色风格

· 保存常用参数为预设,团队成员可以复用保持风格一致

🎤

克隆自己的声音

上传声音样本,用自己的声音合成任意文本

VoiceClone 模式

操作步骤

  1. 1录制 10–30 秒的清晰语音样本(安静环境,普通话或目标语言)
  2. 2在编辑器中选择「VoiceClone」模式
  3. 3上传录音文件(支持 MP3、WAV、M4A)
  4. 4输入想要合成的文本,点击生成
  5. 5系统会用你的声音特征合成新的语音内容

💡 小技巧

· 样本录音越清晰,克隆效果越好,避免背景噪音

· 建议朗读一段自然的文字,而非单字或数字

· 克隆声音仅用于合法用途,请勿模仿他人声音用于欺骗

常见问题

Q: 生成的音频可以商用吗?

A: 取决于你使用的 API 供应商的服务条款。小米 MiMo 和硅基流动均有各自的使用协议,商用前请查阅对应平台的条款。

Q: API Key 安全吗?

A: Key 仅存储在你的浏览器本地(localStorage),所有请求直连供应商服务器,不经过任何中间服务器,音频怪物本身不会收集或上传你的 Key。

Q: 支持哪些音频格式?

A: 目前支持 MP3 和 WAV 两种格式。MP3 文件更小,兼容性好;WAV 为无损格式,音质更高,适合后期制作。

Q: 批量合成有数量限制吗?

A: 本工具本身没有限制,但受 API 供应商的速率限制影响,批量任务会逐条顺序发送请求,过多条目可能需要等待较长时间。

Q: 历史记录会保存多久?

A: 历史记录存储在浏览器本地,清除浏览器数据或使用隐私模式会导致记录丢失。音频文件以 Base64 格式存储,建议及时下载重要音频。

Q: VoiceDesign 和 VoiceClone 有什么区别?

A: VoiceDesign 是用自然语言描述你想要的音色风格(如"温柔的女声,语速稍慢"),系统生成一个匹配的虚拟音色;VoiceClone 是上传真实录音样本,克隆该声音的特征。