跳到主要内容

接入 wxa-skill-eval 评测

wxa-skill-eval 是微信官方提供的小程序 AI Skill 端到端评测工具,能自动模拟真实用户对话,对 Skill 的意图理解、轨迹生成和最终答案质量进行全方位评估,并输出多维度评测报告。

评测工具本身不内置大模型服务,需要开发者自行提供模型接入配置。云开发大模型兼容 OpenAI Chat Completions 协议,可以直接用于 wxa-skill-eval,无需额外注册其他模型服务商。

准备工作

  1. 已开通云开发环境,获取环境 IDENV_ID
  2. 购买 Token 资源包
  3. 控制台 → AI → 生文模型中开启所需模型(推荐使用 hy3-preview 或其他高智能度模型,以获得更准确的评测结果)
  4. 已创建 API Key控制台 → 环境配置 → API Key

安装 wxa-skill-eval

从 GitHub 仓库下载 ai-mode-skills,进入 wxa-skills-eval 目录安装依赖:

cd wxa-skills-eval
pnpm install

配置 .env

wxa-skills-eval 目录下创建 .env 文件,填入云开发大模型的配置:

BASE_URL=https://<ENV_ID>.api.tcloudbasegateway.com/v1/ai/cloudbase
API_KEY=<YOUR_CLOUDBASE_API_KEY>
MODEL=hy3-preview

<ENV_ID> 替换为云开发环境 ID,<YOUR_CLOUDBASE_API_KEY> 替换为对应的 API Key。

关于模型选择

MODEL 字段填写在控制台中已开启的模型名称。评测工具需要调用大模型来模拟用户对话,建议选用参数量较大、智能度较高的模型,以获得更准确的评测效果。

云开发 Token 资源包当前支持以下模型:

模型 ID提供商
hy3-preview腾讯混元
deepseek-v4-flash-202605DeepSeek(原厂直供)
deepseek-v4-pro-202606DeepSeek(原厂直供)
deepseek-v4-flashDeepSeek
deepseek-v4-proDeepSeek
deepseek-v3.2DeepSeek
glm-5.1智谱清言
glm-5v-turbo智谱清言
glm-5-turbo智谱清言
glm-5智谱清言
kimi-k2.6Moonshot
kimi-k2.5Moonshot
minimax-m3MiniMax
minimax-m2.7MiniMax
minimax-m2.5MiniMax
qwen3.5-flash阿里
qwen3.5-plus阿里

使用前需在控制台开启对应模型,并确保已购买 Token 资源包。

关于 BASE_URL

URL 中的 cloudbase 是云开发统一的 provider,适用于通过 Token 资源包购买的所有模型(DeepSeek、混元、Kimi、GLM 等)。

运行评测

根据需要选择以下任意一种方式启动评测:

Web UI 模式(推荐,可视化操作):

pnpm dev:web

CLI 模式

pnpm dev

评测报告

评测完成后,工具会生成 eval_report.html 报告文件,包含以下维度的评估结果:

维度说明
意图理解Skill 对用户指令的理解准确度
轨迹生成操作路径的合理性与完整性
最终答案质量输出结果的正确性与质量
接口覆盖率原子接口与组件的测试覆盖情况

建议每个 Skill 至少运行 30 个测试用例以保证充分覆盖。

备注

wxa-skill-eval 仅供开发阶段自测使用,评测结果不作为微信小程序审核的依据。微信官方的上线评测标准将另行公布。

相关文档