功能速览
常见使用场景
视频配音
为短视频、课程、Vlog 生成旁白或解说
操作步骤
- 1整理好视频的旁白/解说文本,按段落拆分
- 2在编辑器左侧选择合适的音色(推荐试听几个找到最匹配的风格)
- 3调整语速和情感标签,如 "解说" 或 "gentle"
- 4使用「批量模式」将每段文本分行导入,一次性生成所有片段
- 5下载全部音频,导入剪映 / PR / 达芬奇等软件,对齐时间轴
💡 小技巧
· 批量导入时每行对应一段,建议按视频场景切分,方便后期对齐
· 如果旁白较长,可先在标准模式试听效果,满意后再批量生成
· 导出格式选 MP3 兼容性最好,WAV 音质更高但文件较大
有声书 / 小说演播
为小说或故事内容生成多角色有声版本
操作步骤
- 1准备好小说章节文本,识别出其中的角色对话
- 2切换到「对话模式」,点击「快速开始」创建角色
- 3为每个角色分配不同音色(如男主用低沉音色,女主用清亮音色)
- 4将台词按角色分行填入,或使用「导入剧本」功能批量导入
- 5点击「生成对话」,系统按顺序合成每行台词
- 6下载全部音频,用音频软件拼接成完整章节
💡 小技巧
· 剧本导入格式:每行 "角色名:台词内容",支持中英文冒号
· 可为每个角色单独设置情感标签,让表演更有层次
· 旁白部分建议单独用一个"旁白"角色,选用中性稳重的音色
播客 / 广播节目
生成播客开场白、广告语或节目片段
操作步骤
- 1在「标准模式」输入开场白或广告文案
- 2选择播客风格的音色,调整语速(建议 0.9–1.0 倍速,自然流畅)
- 3添加情感标签如 "confident" 或 "warm" 提升感染力
- 4试听满意后下载,导入播客制作软件(如 GarageBand、Audacity)
💡 小技巧
· 播客通常需要较自然的语调,避免使用过于夸张的情感标签
· 可以用「预设管理」保存常用的音色+参数组合,下次直接调用
· 多段内容用批量模式,效率更高
在线课程 / 教学内容
为 PPT、课件或教学视频生成讲解音频
操作步骤
- 1将每张 PPT 或每个知识点的讲解文字整理好
- 2使用「批量模式」,每条对应一张幻灯片或一个知识点
- 3选择清晰、专业的音色,语速可适当放慢(0.85–0.95 倍速)
- 4批量生成后,按编号顺序导入视频制作工具
💡 小技巧
· 教学内容建议语速稍慢,让学生有时间理解
· 专业术语较多时,可在文本中加入适当停顿标点(逗号、句号)
· 批量导出的文件按序号命名,方便在视频软件中排序
App / 产品演示
为产品 Demo 视频或应用内语音提示生成音频
操作步骤
- 1整理产品演示的旁白脚本,或 App 内需要的提示语列表
- 2选择与产品调性匹配的音色(科技感产品推荐清亮现代的音色)
- 3短提示语用「批量模式」一次性生成,旁白用「标准模式」
- 4下载后集成到产品或演示视频中
💡 小技巧
· 系统提示音建议简短有力,避免超过 10 个字
· 可以用 VoiceDesign 模式用自然语言描述想要的音色风格
· 保存常用参数为预设,团队成员可以复用保持风格一致
AI 晚安故事
输入孩子名字和喜好,自动生成专属晚安故事并合成语音
操作步骤
- 1在首页导航点击「晚安故事」进入,或直接访问 /story
- 2输入孩子的名字、年龄段,选择故事主题(勇气、友谊、探险等)和故事风格
- 3可选添加"小秘密"(如害怕什么、喜欢什么),让故事更贴合孩子
- 4点击「生成故事」,等待 AI 撰写故事内容(支持流式显示)
- 5试读故事内容,满意后点击「合成语音」生成语音版本
- 6也可直接粘贴已有故事文本,跳过 AI 创作步骤
💡 小技巧
· 生成的故事会自动保存到"故事小屋"历史中,可随时重新合成语音
· 名字和喜好填得越具体,生成的故事情节越个性化
· 支持多款 LLM 模型选择,复杂情节推荐 MiMo-V2.5-Pro
· 已有现成故事文本?使用"直接粘贴故事"功能更快捷
角色祝福
以动漫/影视角色的口吻生成专属祝福语音
操作步骤
- 1在首页导航点击「角色祝福」进入,或直接访问 /greeting
- 2从分类中找到想要的角色(动漫、游戏、影视、原创等)
- 3选择场景(生日祝福 / 日常问候),输入收信人名字和年龄
- 4系统自动生成角色口吻的祝福文案,可手动编辑微调
- 5点击「生成祝福语音」,角色会以专属声线读出祝福
- 6试听满意后下载 MP3,可分享给亲友
💡 小技巧
· 不同角色的声线由 VoiceDesign 驱动,风格各具特色
· 可多次点击「换一个文案」获取不同祝福语
· 生成前可自由编辑文案内容,调整措辞更贴合场景
· 祝福记录会自动保存到历史,方便日后重新下载
克隆自己的声音
上传声音样本,用自己的声音合成任意文本
操作步骤
- 1录制 10–30 秒的清晰语音样本(安静环境,普通话或目标语言)
- 2在编辑器中选择「VoiceClone」模式
- 3上传录音文件(支持 MP3、WAV、M4A)
- 4输入想要合成的文本,点击生成
- 5系统会用你的声音特征合成新的语音内容
💡 小技巧
· 样本录音越清晰,克隆效果越好,避免背景噪音
· 建议朗读一段自然的文字,而非单字或数字
· 克隆声音仅用于合法用途,请勿模仿他人声音用于欺骗
音贝扣费标准
音贝是音频怪物的虚拟货币,用于支付平台托管模式下的语音合成和故事生成服务。故事生成使用 LLM 大语言模型创作文本,语音合成使用 TTS 模型将文本转为音频,两者是独立的 AI 服务,因此分别计费。扣费按实际使用量计算,不足 1000 字符按 1000 字符计费。
| 服务类型 | 计费规则 | 费用 |
|---|---|---|
| TTS 标准合成(MiMo) | 每千字符,向上取整 | 10 音贝 |
| VoiceDesign / VoiceClone | 每千字符,向上取整 | 20 音贝 |
| AI 故事生成 | 每次调用 | 30 音贝 |
💡 说明
· 使用自己的 API Key(BYOK 模式)不消耗音贝
· 购买音贝永久有效,赠送音贝随订单赠送
· 扣费时优先消耗赠送音贝,再消耗购买音贝
常见问题
Q: 生成的音频可以商用吗?
A: 取决于小米 MiMo 的服务条款。商用前请查阅 MiMo 平台的最新使用协议。
Q: API Key 安全吗?
A: Key 仅存储在你的浏览器本地(localStorage),使用自有 Key 时请求直连小米 MiMo,不经过音频怪物服务器中转。
Q: 支持哪些音频格式?
A: 目前支持 MP3 和 WAV 两种格式。MP3 文件更小,兼容性好;WAV 为无损格式,音质更高,适合后期制作。
Q: 批量合成有数量限制吗?
A: 本工具本身没有限制,但受 MiMo API 速率限制影响,批量任务会逐条顺序发送请求,过多条目可能需要等待较长时间。
Q: 历史记录会保存多久?
A: 历史记录存储在浏览器本地,清除浏览器数据或使用隐私模式会导致记录丢失。音频文件以 Base64 格式存储,建议及时下载重要音频。
Q: VoiceDesign 和 VoiceClone 有什么区别?
A: VoiceDesign 是用自然语言描述你想要的音色风格(如"温柔的女声,语速稍慢"),系统生成一个匹配的虚拟音色;VoiceClone 是上传真实录音样本,克隆该声音的特征。
Q: 晚安故事支持哪些年龄段?
A: 支持 3-10 岁各个年龄段,可在生成时选择对应的年龄区间(3-4岁、5-6岁、7-8岁、9-10岁),AI 会根据年龄段调整故事长度和用词难度。
Q: 角色祝福可以用自己的角色吗?
A: 目前提供预设的动漫、游戏、影视角色模板,每个角色有专属的声线描述。如需自定义角色口吻,可在生成后手动编辑文案,或在标准模式中使用 VoiceDesign 自行调参。
Q: 晚安故事生成的故事能保存多久?
A: 故事文本和生成的音频会保存在浏览器本地,进入「故事小屋」可查看历史记录。建议及时下载重要的故事音频,清除浏览器数据会导致记录丢失。
Q: 为什么生成故事需要消耗音贝,而语音合成也单独计费?
A: 故事生成和语音合成是两个独立的步骤,分别调用不同的 AI 服务:故事生成使用 LLM(大语言模型)创作文本,消耗 30 音贝/次;语音合成使用 TTS(语音合成模型)将文本转为音频,按字数计费(约 10 音贝/千字)。生成文本后您可以先预览、修改,满意后再决定是否合成语音,避免浪费。