使用帮助

音频怪物支持标准合成、多角色对话、批量生成三种模式，新增 AI 晚安故事和角色祝福两大专属页面，适用于视频配音、有声书、课程制作、亲子故事、角色扮演等多种场景。

返回编辑器

功能速览

🎵

标准模式

单段文本合成，支持音色试听、风格调节、预设保存，适合快速生成单条语音。

💬

对话模式

多角色台词编辑，每个角色独立音色，按顺序合成完整对话，适合有声书和剧本演播。

📦

批量模式

一次性合成多段文本，共用当前音色参数，完成后打包下载，适合视频配音和课程制作。

🌙

晚安故事

输入孩子名字和喜好，AI 自动生成专属晚安故事并合成为语音，让孩子成为故事主角。

🎭

角色祝福

以动漫/影视角色的口吻生成祝福语音，支持生日祝福、日常问候，可选多种人气角色。

常见使用场景

🎬

视频配音

为短视频、课程、Vlog 生成旁白或解说

批量模式 →

操作步骤

1整理好视频的旁白/解说文本，按段落拆分
2在编辑器左侧选择合适的音色（推荐试听几个找到最匹配的风格）
3调整语速和情感标签，如 "解说" 或 "gentle"
4使用「批量模式」将每段文本分行导入，一次性生成所有片段
5下载全部音频，导入剪映 / PR / 达芬奇等软件，对齐时间轴

💡 小技巧

· 批量导入时每行对应一段，建议按视频场景切分，方便后期对齐

· 如果旁白较长，可先在标准模式试听效果，满意后再批量生成

· 导出格式选 MP3 兼容性最好，WAV 音质更高但文件较大

📖

有声书 / 小说演播

为小说或故事内容生成多角色有声版本

对话模式 →

操作步骤

1准备好小说章节文本，识别出其中的角色对话
2切换到「对话模式」，点击「快速开始」创建角色
3为每个角色分配不同音色（如男主用低沉音色，女主用清亮音色）
4将台词按角色分行填入，或使用「导入剧本」功能批量导入
5点击「生成对话」，系统按顺序合成每行台词
6下载全部音频，用音频软件拼接成完整章节

💡 小技巧

· 剧本导入格式：每行 "角色名：台词内容"，支持中英文冒号

· 可为每个角色单独设置情感标签，让表演更有层次

· 旁白部分建议单独用一个"旁白"角色，选用中性稳重的音色

🎙️

播客 / 广播节目

生成播客开场白、广告语或节目片段

标准模式 →

操作步骤

1在「标准模式」输入开场白或广告文案
2选择播客风格的音色，调整语速（建议 0.9–1.0 倍速，自然流畅）
3添加情感标签如 "confident" 或 "warm" 提升感染力
4试听满意后下载，导入播客制作软件（如 GarageBand、Audacity）

💡 小技巧

· 播客通常需要较自然的语调，避免使用过于夸张的情感标签

· 可以用「预设管理」保存常用的音色+参数组合，下次直接调用

· 多段内容用批量模式，效率更高

🎓

在线课程 / 教学内容

为 PPT、课件或教学视频生成讲解音频

批量模式 →

操作步骤

1将每张 PPT 或每个知识点的讲解文字整理好
2使用「批量模式」，每条对应一张幻灯片或一个知识点
3选择清晰、专业的音色，语速可适当放慢（0.85–0.95 倍速）
4批量生成后，按编号顺序导入视频制作工具

💡 小技巧

· 教学内容建议语速稍慢，让学生有时间理解

· 专业术语较多时，可在文本中加入适当停顿标点（逗号、句号）

· 批量导出的文件按序号命名，方便在视频软件中排序

📱

App / 产品演示

为产品 Demo 视频或应用内语音提示生成音频

标准模式 / 批量模式 →

操作步骤

1整理产品演示的旁白脚本，或 App 内需要的提示语列表
2选择与产品调性匹配的音色（科技感产品推荐清亮现代的音色）
3短提示语用「批量模式」一次性生成，旁白用「标准模式」
4下载后集成到产品或演示视频中

💡 小技巧

· 系统提示音建议简短有力，避免超过 10 个字

· 可以用 VoiceDesign 模式用自然语言描述想要的音色风格

· 保存常用参数为预设，团队成员可以复用保持风格一致

🌙

AI 晚安故事

输入孩子名字和喜好，自动生成专属晚安故事并合成语音

晚安故事 →

操作步骤

1在首页导航点击「晚安故事」进入，或直接访问 /story
2输入孩子的名字、年龄段，选择故事主题（勇气、友谊、探险等）和故事风格
3可选添加"小秘密"（如害怕什么、喜欢什么），让故事更贴合孩子
4点击「生成故事」，等待 AI 撰写故事内容（支持流式显示）
5试读故事内容，满意后点击「合成语音」生成语音版本
6也可直接粘贴已有故事文本，跳过 AI 创作步骤

💡 小技巧

· 生成的故事会自动保存到"故事小屋"历史中，可随时重新合成语音

· 名字和喜好填得越具体，生成的故事情节越个性化

· 支持多款 LLM 模型选择，复杂情节推荐 MiMo-V2.5-Pro

· 已有现成故事文本？使用"直接粘贴故事"功能更快捷

🎭

角色祝福

以动漫/影视角色的口吻生成专属祝福语音

角色祝福 →

操作步骤

1在首页导航点击「角色祝福」进入，或直接访问 /greeting
2从分类中找到想要的角色（动漫、游戏、影视、原创等）
3选择场景（生日祝福 / 日常问候），输入收信人名字和年龄
4系统自动生成角色口吻的祝福文案，可手动编辑微调
5点击「生成祝福语音」，角色会以专属声线读出祝福
6试听满意后下载 MP3，可分享给亲友

💡 小技巧

· 不同角色的声线由 VoiceDesign 驱动，风格各具特色

· 可多次点击「换一个文案」获取不同祝福语

· 生成前可自由编辑文案内容，调整措辞更贴合场景

· 祝福记录会自动保存到历史，方便日后重新下载

🎤

克隆自己的声音

上传声音样本，用自己的声音合成任意文本

VoiceClone 模式 →

操作步骤

1录制 10–30 秒的清晰语音样本（安静环境，普通话或目标语言）
2在编辑器中选择「VoiceClone」模式
3上传录音文件（支持 MP3、WAV、M4A）
4输入想要合成的文本，点击生成
5系统会用你的声音特征合成新的语音内容

💡 小技巧

· 样本录音越清晰，克隆效果越好，避免背景噪音

· 建议朗读一段自然的文字，而非单字或数字

· 克隆声音仅用于合法用途，请勿模仿他人声音用于欺骗

音贝扣费标准

音贝是音频怪物的虚拟货币，用于支付平台托管模式下的语音合成和故事生成服务。故事生成使用 LLM 大语言模型创作文本，语音合成使用 TTS 模型将文本转为音频，两者是独立的 AI 服务，因此分别计费。扣费按实际使用量计算，不足 1000 字符按 1000 字符计费。

服务类型	计费规则	费用
TTS 标准合成（MiMo）	每千字符，向上取整	10 音贝
VoiceDesign / VoiceClone	每千字符，向上取整	20 音贝
AI 故事生成	每次调用	30 音贝

💡 说明

· 使用自己的 API Key（BYOK 模式）不消耗音贝

· 购买音贝永久有效，赠送音贝随订单赠送

· 扣费时优先消耗赠送音贝，再消耗购买音贝

常见问题

Q: 生成的音频可以商用吗？

A: 取决于小米 MiMo 的服务条款。商用前请查阅 MiMo 平台的最新使用协议。

Q: API Key 安全吗？

A: Key 仅存储在你的浏览器本地（localStorage），使用自有 Key 时请求直连小米 MiMo，不经过音频怪物服务器中转。

Q: 支持哪些音频格式？

A: 目前支持 MP3 和 WAV 两种格式。MP3 文件更小，兼容性好；WAV 为无损格式，音质更高，适合后期制作。

Q: 批量合成有数量限制吗？

A: 本工具本身没有限制，但受 MiMo API 速率限制影响，批量任务会逐条顺序发送请求，过多条目可能需要等待较长时间。

Q: 历史记录会保存多久？

A: 历史记录存储在浏览器本地，清除浏览器数据或使用隐私模式会导致记录丢失。音频文件以 Base64 格式存储，建议及时下载重要音频。

Q: VoiceDesign 和 VoiceClone 有什么区别？

A: VoiceDesign 是用自然语言描述你想要的音色风格（如"温柔的女声，语速稍慢"），系统生成一个匹配的虚拟音色；VoiceClone 是上传真实录音样本，克隆该声音的特征。

Q: 晚安故事支持哪些年龄段？

A: 支持 3-10 岁各个年龄段，可在生成时选择对应的年龄区间（3-4岁、5-6岁、7-8岁、9-10岁），AI 会根据年龄段调整故事长度和用词难度。

Q: 角色祝福可以用自己的角色吗？

A: 目前提供预设的动漫、游戏、影视角色模板，每个角色有专属的声线描述。如需自定义角色口吻，可在生成后手动编辑文案，或在标准模式中使用 VoiceDesign 自行调参。

Q: 晚安故事生成的故事能保存多久？

A: 故事文本和生成的音频会保存在浏览器本地，进入「故事小屋」可查看历史记录。建议及时下载重要的故事音频，清除浏览器数据会导致记录丢失。

Q: 为什么生成故事需要消耗音贝，而语音合成也单独计费？

A: 故事生成和语音合成是两个独立的步骤，分别调用不同的 AI 服务：故事生成使用 LLM（大语言模型）创作文本，消耗 30 音贝/次；语音合成使用 TTS（语音合成模型）将文本转为音频，按字数计费（约 10 音贝/千字）。生成文本后您可以先预览、修改，满意后再决定是否合成语音，避免浪费。

开始使用音频怪物

🌙 晚安故事·🎭 角色祝福·📋 历史记录