语音能力接入
目前云开发提供的语音能力包括语音转文本(ASR),文本转语音(TTS),均基于腾讯云提供的语音相关 API 实现。
语音识别介绍
提供语音转文字的产品功能,目前支持一句话识别场景(对60秒之内的短音频文件进行识别)(API参考)
限制:
- 音频时长不能超过60s,音频文件大小不能超过3MB
- 语音输入识别场景类型:中文通用/中英粤/中文医疗/英语/粤语
语音合成介绍
提供文字转语音的产品功能,目前支持长文本语音合成场景(适合阅读,播报场景,支持文本长度灵活)(API参考)
限制:
- 支持对10万字符以内的文本进行语音合成,异步返回音频结果
- 语音音色类型:通用男声/通用女声/咨询男声/咨询女声/通用男声(大模型)/通用女声(大模型)/聊天男声/聊天女声/阅读男声/阅读女声
如何使用
1. 开通
在云开发平台 AI+ 菜单 -> Agent 详情页 -> 语音输入输出配置,打开开关(可以选择语音输入选项及语音输出选项)

配置后在右侧预览区可实时体验,语音识别&文本转语音入口如图所示:

2. 通过组件/HTTP API/SDK 集成
2.1 组件集成
2.2 HTTP API 集成
参考 HTTP API 文档
2.3 SDK 集成
初始化 SDK:
// 在 Web 项目的根目录下,使用 npm 或 yarn 安装所需的包:
// npm i @cloudbase/js-sdk
// 引入 SDK,这里我们引入了完整的 clousebase-js-sdk,也支持分模块引入
import cloudbase from "@cloudbase/js-sdk";
const app = cloudbase.init({
env: "your-env", // 需替换为实际使用环境 id
});
const auth = app.auth();
await auth.signInAnonymously(); // 或者使用其他登录方式
const ai = app.ai();
// 接下来就可以调用 ai 模块提供的方法了
语音转文本:
const res = await ai.bot.speechToText({
botId: "botId-xxx",
engSerViceType: "16k_zh",
voiceFormat: "mp3",
url: "https://example.com/audio.mp3",
});
文本转语音(发起异步任务):
const res = await ai.bot.textToSpeech({
botId: "botId-xxx",
voiceType: 1,
text: "你好,我是AI助手",
});
查询文本转语音任务结果:
const res = await ai.bot.getTextToSpeechResult({
botId: "botId-xxx",
taskId: "task-123", // 从文本转语音 textToSpeech 返回中获取
});
参考 SDK 文档方法使用