支持地域：上海

接入 wxa-skill-eval 评测

wxa-skill-eval 是微信官方提供的小程序 AI Skill 端到端评测工具，能自动模拟真实用户对话，对 Skill 的意图理解、轨迹生成和最终答案质量进行全方位评估，并输出多维度评测报告。

评测工具本身不内置大模型服务，需要开发者自行提供模型接入配置。云开发大模型兼容 OpenAI Chat Completions 协议，可以直接用于 wxa-skill-eval，无需额外注册其他模型服务商。

准备工作

从 GitHub 仓库下载 ai-mode-skills，进入 wxa-skills-eval 目录安装依赖：

cd wxa-skills-eval
pnpm install

在 wxa-skills-eval 目录下创建 .env 文件，填入云开发大模型的配置：

BASE_URL=https://<ENV_ID>.api.tcloudbasegateway.com/v1/ai/cloudbase
API_KEY=<YOUR_CLOUDBASE_API_KEY>
MODEL=hy3

将 <ENV_ID> 替换为云开发环境 ID，<YOUR_CLOUDBASE_API_KEY> 替换为对应的 API Key。

关于模型选择

MODEL 字段填写在控制台中已开启的模型名称。评测工具需要调用大模型来模拟用户对话，建议选用参数量较大、智能度较高的模型，以获得更准确的评测效果。

资源点套餐当前支持以下模型：

使用前需在控制台开启对应模型，并确保已开通资源点套餐。

关于 BASE_URL

URL 中的 cloudbase 是云开发统一的 provider，适用于通过资源点套餐支持的所有模型（DeepSeek、混元、Kimi、GLM 等）。

根据需要选择以下任意一种方式启动评测：

Web UI 模式（推荐，可视化操作）：

pnpm dev:web

CLI 模式：

pnpm dev

评测完成后，工具会生成 eval_report.html 报告文件，包含以下维度的评估结果：

建议每个 Skill 至少运行 30 个测试用例以保证充分覆盖。

备注

wxa-skill-eval 仅供开发阶段自测使用，评测结果不作为微信小程序审核的依据。微信官方的上线评测标准将另行公布。