接入 wxa-skill-eval 评测
wxa-skill-eval 是微信官方提供的小程序 AI Skill 端到端评测工具,能自动模拟真实用户对话,对 Skill 的意图理解、轨迹生成和最终答案质量进行全方位评估,并输出多维度评测报告。
评测工具本身不内置大模型服务,需要开发者自行提供模型接入配置。云开发大模型兼容 OpenAI Chat Completions 协议,可以直接用于 wxa-skill-eval,无需额外注册其他模型服务商。
准备工作
- 已开通云开发环境,获取环境 ID(
ENV_ID) - 已购买 Token 资源包
- 在控制台 → AI → 生文模型中开启所需模型(推荐使用
hy3-preview或其他高智能度模型,以获得更准确的评测结果) - 已创建 API Key(控制台 → 环境配置 → API Key)
安装 wxa-skill-eval
从 GitHub 仓库下载 ai-mode-skills,进入 wxa-skills-eval 目录安装依赖:
cd wxa-skills-eval
pnpm install
配置 .env
在 wxa-skills-eval 目录下创建 .env 文件,填入云开发大模型的配置:
BASE_URL=https://<ENV_ID>.api.tcloudbasegateway.com/v1/ai/cloudbase
API_KEY=<YOUR_CLOUDBASE_API_KEY>
MODEL=hy3-preview
将 <ENV_ID> 替换为云开发环境 ID,<YOUR_CLOUDBASE_API_KEY> 替换为对应的 API Key。
关于模型选择
MODEL 字段填写在控制台中已开启的模型名称。评测工具需要调用大模型来模拟用户对话,建议选用参数量较大、智能度较高的模型,以获得更准确的评测效果。
云开发 Token 资源包当前支持以下模型:
| 模型 ID | 提供商 |
|---|---|
hy3-preview | 腾讯混元 |
deepseek-v4-flash-202605 | DeepSeek(原厂直供) |
deepseek-v4-pro-202606 | DeepSeek(原厂直供) |
deepseek-v4-flash | DeepSeek |
deepseek-v4-pro | DeepSeek |
deepseek-v3.2 | DeepSeek |
glm-5.1 | 智谱清言 |
glm-5v-turbo | 智谱清言 |
glm-5-turbo | 智谱清言 |
glm-5 | 智谱清言 |
kimi-k2.6 | Moonshot |
kimi-k2.5 | Moonshot |
minimax-m3 | MiniMax |
minimax-m2.7 | MiniMax |
minimax-m2.5 | MiniMax |
qwen3.5-flash | 阿里 |
qwen3.5-plus | 阿里 |
使用前需在控制台开启对应模型,并确保已购买 Token 资源包。
关于 BASE_URL
URL 中的 cloudbase 是云开发统一的 provider,适用于通过 Token 资源包购买的所有模型(DeepSeek、混元、Kimi、GLM 等)。
运行评测
根据需要选择以下任意一种方式启动评测:
Web UI 模式(推荐,可视化操作):
pnpm dev:web
CLI 模式:
pnpm dev