接入 wxa-skill-eval 评测
wxa-skill-eval 是微信官方提供的小程序 AI Skill 端到端评测 工具,能自动模拟真实用户对话,对 Skill 的意图理解、轨迹生成和最终答案质量进行全方位评估,并输出多维度评测报告。
评测工具本身不内置大模型服务,需要开发者自行提供模型接入配置。云开发大模型兼容 OpenAI Chat Completions 协议,可以直接用于 wxa-skill-eval,无需额外注册其他模型服务商。
准备工作
- 已创建云开发环境(旧套餐可升级),获取环境 ID(
ENV_ID) - 在控制台 → AI → 生文模型中开启所需模型(推荐使用
hy3-preview或其他高智能度模型,以获得更准确的评测结果) - 已创建 API Key(控制台 → 环境配置 → API Key)
安装 wxa-skill-eval
从 GitHub 仓库下载 ai-mode-skills,进入 wxa-skills-eval 目录安装依赖:
cd wxa-skills-eval
pnpm install
配置 .env
在 wxa-skills-eval 目录下创建 .env 文件,填入云开发大模型的配置:
BASE_URL=https://<ENV_ID>.api.tcloudbasegateway.com/v1/ai/cloudbase
API_KEY=<YOUR_CLOUDBASE_API_KEY>
MODEL=hy3-preview
将 <ENV_ID> 替换为云开发环境 ID,<YOUR_CLOUDBASE_API_KEY> 替换为对应的 API Key。
关于模型选择
MODEL 字段填写在控制台中已开启的模型名称。评测工具需要调用大模型来模拟用户对话,建议选用参数量较大、智能度较高的模型,以获得更准确的评测效果。
资源点套餐当前支持以下模型:
| 模型 ID | 提供商 |
|---|---|
hy3-preview | 腾讯混元 |
deepseek-v4-flash-202605 | DeepSeek(原厂直供) |
deepseek-v4-pro-202606 | DeepSeek(原厂直供) |
deepseek-v4-flash | DeepSeek |
deepseek-v4-pro | DeepSeek |
deepseek-v3.2 | DeepSeek |
glm-5.1 | 智谱清言 |
glm-5v-turbo | 智谱清言 |
glm-5-turbo | 智谱清言 |
glm-5 | 智谱清言 |
kimi-k2.6 | Moonshot |
kimi-k2.5 | Moonshot |
minimax-m3 | MiniMax |
minimax-m2.7 | MiniMax |
minimax-m2.5 | MiniMax |
qwen3.5-flash | 阿里 |
qwen3.5-plus | 阿里 |
使用前需在控制台开启对应模型,并确保已开通资源点套餐。
关于 BASE_URL
URL 中的 cloudbase 是云开发统一的 provider,适用于通过资源点套餐支持的所有模型(DeepSeek、混元、Kimi、GLM 等)。
运行评测
根据需要选择以下任意一种方式启动评测:
Web UI 模式(推荐,可视化操作):
pnpm dev:web
CLI 模式:
pnpm dev
评测报告
评测完成后,工具会生成 eval_report.html 报告文件,包含以下维度的评估结果:
| 维度 | 说明 |
|---|---|
| 意图理解 | Skill 对用户指令的理解准确度 |
| 轨迹生成 | 操作路径的合理性与完整性 |
| 最终答案质量 | 输出结果的正确性与质量 |
| 接口覆盖率 | 原子接口与组件的测试覆盖情况 |
建议每个 Skill 至少运行 30 个测试用例以保证充分覆盖。
备注
wxa-skill-eval 仅供开发阶段自测使用,评测结果不作为微信小程序审核的依据。微信官方的上线评测标准将另行公布。