使用帮助

音频怪物支持标准合成、多角色对话、批量生成三种模式,新增 AI 晚安故事和角色祝福两大专属页面,适用于视频配音、有声书、课程制作、亲子故事、角色扮演等多种场景。

返回编辑器

功能速览

常见使用场景

🎬

视频配音

为短视频、课程、Vlog 生成旁白或解说

批量模式

操作步骤

  1. 1整理好视频的旁白/解说文本,按段落拆分
  2. 2在编辑器左侧选择合适的音色(推荐试听几个找到最匹配的风格)
  3. 3调整语速和情感标签,如 "解说" 或 "gentle"
  4. 4使用「批量模式」将每段文本分行导入,一次性生成所有片段
  5. 5下载全部音频,导入剪映 / PR / 达芬奇等软件,对齐时间轴

💡 小技巧

· 批量导入时每行对应一段,建议按视频场景切分,方便后期对齐

· 如果旁白较长,可先在标准模式试听效果,满意后再批量生成

· 导出格式选 MP3 兼容性最好,WAV 音质更高但文件较大

📖

有声书 / 小说演播

为小说或故事内容生成多角色有声版本

对话模式

操作步骤

  1. 1准备好小说章节文本,识别出其中的角色对话
  2. 2切换到「对话模式」,点击「快速开始」创建角色
  3. 3为每个角色分配不同音色(如男主用低沉音色,女主用清亮音色)
  4. 4将台词按角色分行填入,或使用「导入剧本」功能批量导入
  5. 5点击「生成对话」,系统按顺序合成每行台词
  6. 6下载全部音频,用音频软件拼接成完整章节

💡 小技巧

· 剧本导入格式:每行 "角色名:台词内容",支持中英文冒号

· 可为每个角色单独设置情感标签,让表演更有层次

· 旁白部分建议单独用一个"旁白"角色,选用中性稳重的音色

🎙️

播客 / 广播节目

生成播客开场白、广告语或节目片段

标准模式

操作步骤

  1. 1在「标准模式」输入开场白或广告文案
  2. 2选择播客风格的音色,调整语速(建议 0.9–1.0 倍速,自然流畅)
  3. 3添加情感标签如 "confident" 或 "warm" 提升感染力
  4. 4试听满意后下载,导入播客制作软件(如 GarageBand、Audacity)

💡 小技巧

· 播客通常需要较自然的语调,避免使用过于夸张的情感标签

· 可以用「预设管理」保存常用的音色+参数组合,下次直接调用

· 多段内容用批量模式,效率更高

🎓

在线课程 / 教学内容

为 PPT、课件或教学视频生成讲解音频

批量模式

操作步骤

  1. 1将每张 PPT 或每个知识点的讲解文字整理好
  2. 2使用「批量模式」,每条对应一张幻灯片或一个知识点
  3. 3选择清晰、专业的音色,语速可适当放慢(0.85–0.95 倍速)
  4. 4批量生成后,按编号顺序导入视频制作工具

💡 小技巧

· 教学内容建议语速稍慢,让学生有时间理解

· 专业术语较多时,可在文本中加入适当停顿标点(逗号、句号)

· 批量导出的文件按序号命名,方便在视频软件中排序

📱

App / 产品演示

为产品 Demo 视频或应用内语音提示生成音频

标准模式 / 批量模式

操作步骤

  1. 1整理产品演示的旁白脚本,或 App 内需要的提示语列表
  2. 2选择与产品调性匹配的音色(科技感产品推荐清亮现代的音色)
  3. 3短提示语用「批量模式」一次性生成,旁白用「标准模式」
  4. 4下载后集成到产品或演示视频中

💡 小技巧

· 系统提示音建议简短有力,避免超过 10 个字

· 可以用 VoiceDesign 模式用自然语言描述想要的音色风格

· 保存常用参数为预设,团队成员可以复用保持风格一致

🌙

AI 晚安故事

输入孩子名字和喜好,自动生成专属晚安故事并合成语音

晚安故事

操作步骤

  1. 1在首页导航点击「晚安故事」进入,或直接访问 /story
  2. 2输入孩子的名字、年龄段,选择故事主题(勇气、友谊、探险等)和故事风格
  3. 3可选添加"小秘密"(如害怕什么、喜欢什么),让故事更贴合孩子
  4. 4点击「生成故事」,等待 AI 撰写故事内容(支持流式显示)
  5. 5试读故事内容,满意后点击「合成语音」生成语音版本
  6. 6也可直接粘贴已有故事文本,跳过 AI 创作步骤

💡 小技巧

· 生成的故事会自动保存到"故事小屋"历史中,可随时重新合成语音

· 名字和喜好填得越具体,生成的故事情节越个性化

· 支持多款 LLM 模型选择,复杂情节推荐 MiMo-V2.5-Pro

· 已有现成故事文本?使用"直接粘贴故事"功能更快捷

🎭

角色祝福

以动漫/影视角色的口吻生成专属祝福语音

角色祝福

操作步骤

  1. 1在首页导航点击「角色祝福」进入,或直接访问 /greeting
  2. 2从分类中找到想要的角色(动漫、游戏、影视、原创等)
  3. 3选择场景(生日祝福 / 日常问候),输入收信人名字和年龄
  4. 4系统自动生成角色口吻的祝福文案,可手动编辑微调
  5. 5点击「生成祝福语音」,角色会以专属声线读出祝福
  6. 6试听满意后下载 MP3,可分享给亲友

💡 小技巧

· 不同角色的声线由 VoiceDesign 驱动,风格各具特色

· 可多次点击「换一个文案」获取不同祝福语

· 生成前可自由编辑文案内容,调整措辞更贴合场景

· 祝福记录会自动保存到历史,方便日后重新下载

🎤

克隆自己的声音

上传声音样本,用自己的声音合成任意文本

VoiceClone 模式

操作步骤

  1. 1录制 10–30 秒的清晰语音样本(安静环境,普通话或目标语言)
  2. 2在编辑器中选择「VoiceClone」模式
  3. 3上传录音文件(支持 MP3、WAV、M4A)
  4. 4输入想要合成的文本,点击生成
  5. 5系统会用你的声音特征合成新的语音内容

💡 小技巧

· 样本录音越清晰,克隆效果越好,避免背景噪音

· 建议朗读一段自然的文字,而非单字或数字

· 克隆声音仅用于合法用途,请勿模仿他人声音用于欺骗

音贝扣费标准

音贝是音频怪物的虚拟货币,用于支付平台托管模式下的语音合成和故事生成服务。故事生成使用 LLM 大语言模型创作文本,语音合成使用 TTS 模型将文本转为音频,两者是独立的 AI 服务,因此分别计费。扣费按实际使用量计算,不足 1000 字符按 1000 字符计费。

服务类型计费规则费用
TTS 标准合成(MiMo)每千字符,向上取整10 音贝
VoiceDesign / VoiceClone每千字符,向上取整20 音贝
AI 故事生成每次调用30 音贝

💡 说明

· 使用自己的 API Key(BYOK 模式)不消耗音贝

· 购买音贝永久有效,赠送音贝随订单赠送

· 扣费时优先消耗赠送音贝,再消耗购买音贝

常见问题

Q: 生成的音频可以商用吗?

A: 取决于小米 MiMo 的服务条款。商用前请查阅 MiMo 平台的最新使用协议。

Q: API Key 安全吗?

A: Key 仅存储在你的浏览器本地(localStorage),使用自有 Key 时请求直连小米 MiMo,不经过音频怪物服务器中转。

Q: 支持哪些音频格式?

A: 目前支持 MP3 和 WAV 两种格式。MP3 文件更小,兼容性好;WAV 为无损格式,音质更高,适合后期制作。

Q: 批量合成有数量限制吗?

A: 本工具本身没有限制,但受 MiMo API 速率限制影响,批量任务会逐条顺序发送请求,过多条目可能需要等待较长时间。

Q: 历史记录会保存多久?

A: 历史记录存储在浏览器本地,清除浏览器数据或使用隐私模式会导致记录丢失。音频文件以 Base64 格式存储,建议及时下载重要音频。

Q: VoiceDesign 和 VoiceClone 有什么区别?

A: VoiceDesign 是用自然语言描述你想要的音色风格(如"温柔的女声,语速稍慢"),系统生成一个匹配的虚拟音色;VoiceClone 是上传真实录音样本,克隆该声音的特征。

Q: 晚安故事支持哪些年龄段?

A: 支持 3-10 岁各个年龄段,可在生成时选择对应的年龄区间(3-4岁、5-6岁、7-8岁、9-10岁),AI 会根据年龄段调整故事长度和用词难度。

Q: 角色祝福可以用自己的角色吗?

A: 目前提供预设的动漫、游戏、影视角色模板,每个角色有专属的声线描述。如需自定义角色口吻,可在生成后手动编辑文案,或在标准模式中使用 VoiceDesign 自行调参。

Q: 晚安故事生成的故事能保存多久?

A: 故事文本和生成的音频会保存在浏览器本地,进入「故事小屋」可查看历史记录。建议及时下载重要的故事音频,清除浏览器数据会导致记录丢失。

Q: 为什么生成故事需要消耗音贝,而语音合成也单独计费?

A: 故事生成和语音合成是两个独立的步骤,分别调用不同的 AI 服务:故事生成使用 LLM(大语言模型)创作文本,消耗 30 音贝/次;语音合成使用 TTS(语音合成模型)将文本转为音频,按字数计费(约 10 音贝/千字)。生成文本后您可以先预览、修改,满意后再决定是否合成语音,避免浪费。