多模态理解
多模态理解(Multimodal Understanding)允许模型在同一次对话中接收文本之外的输入——图片、视频、文件等,并基于这些内容回答问题。常见场景:图片描述、截图问答、视频摘要、文档抽取、OCR 识别等。
与图片生成的区别
- 多模态理解(本文):输入图片/视频/文件,模型输出文本。
- 图片生成:输入文本描述,模型输出图片,详见图片生成。
支持的模型
不同模型在多模态能力上差异较大,下表对比常用模型:
| 模型 | 图片输入 | 视频输入 | 文件输入 | 备注 |
|---|---|---|---|---|
glm-5v-turbo | ✅ URL / Base64 | ✅ URL | ✅ URL(PDF/TXT/DOC) | 图、视频、文件不可在同一请求中混传 |
qwen3.5-plus | ✅ URL / Base64 | ✅ URL | — | 默认开启思考,可与 enable_thinking 配合 |
kimi-k2.6 | ✅ URL / Base64 | ✅ URL | — | Kimi 系列中唯一支持视频的模型 |
kimi-k2.5 | ✅ URL / Base64 | — | — | 不支持视频 |
kimi-k2.7-code | ✅ 仅 Base64 | — | — | 编码专用,URL 形式不支持 |
备注
- 表格仅列出常见多模态模型,完整列表请参考接入大模型中的模型说明。
- 不支持多模态的文本模型(如
deepseek-v4-flash、hy3-preview