智谱推出的多模态大模型GLM-4.6V,分为两个版本:面向云端与高性能集群场景的基础版GLM-4.6V(106B-A12B),以及面向本地部署与低延迟应用的轻量版GLM-4.6V-Flash(9B)。该模型支持128k tokens的长上下文,视觉理解精度在同参数规模模型中处于顶尖水平,并且首次在视觉模型中原生融入工具调用能力,形成了从视觉感知到可执行行动的完整闭环。在智能图文创作、识图购物、前端复刻、长文档/视频理解等多个场景中,GLM-4.6V都有广泛应用,不仅性能较上一代GLM-4.5V有显著提升,成本还降低了50%。

GLM-4.6V具备以下核心功能: 其一,多模态理解与生成能力:可同时处理图像、视频、文本等多种输入类型,并生成优质的图文结合内容,适合应用于内容创作、社交媒体发布等场景。 其二,视觉驱动的工具调用:能够直接以图像、截图等作为工具参数,无需额外文字描述,有效减少信息损耗;同时可处理工具返回的统计图表、网页截图等多模态结果。 其三,长上下文处理能力:上下文窗口拓展至128k tokens,可应对长达150页的复杂文档或1小时的视频内容,支持跨文档对比分析与长视频关键事件定位。 其四,智能导购与比价功能:在电商场景下,可完成从图像识别到商品搜索、价格比对及导购清单生成的全流程服务。 其五,前端复刻与交互调试:支持像素级别的前端复刻,能将设计稿快速转化为可运行的网页代码,还可基于截图进行多轮视觉交互修改。 其六,多模态交互与推理:面对复杂任务时,能融合视觉输入与文本信息开展推理,输出结构化结果,适配多种业务场景。 其七,高性价比与灵活部署:与上一代模型相比,成本降低50%,且支持云端、本地及多种硬件环境部署,满足不同场景的需求。 GLM-4.6V的性能表现如下:
在MMBench、MathVista、OCRBench等30多个多模态评测基准的验证中,GLM-4.6V相较于上一代模型实现了显著提升,特别是在多模态交互、逻辑推理与长上下文处理等关键能力方面达到了顶尖水准。
9B版本的GLM-4.6V-Flash:整体表现优于8B参数量的Qwen3-VL-8B,在多模态任务中体现出更出色的效率与性能。而具备106B参数、12B激活规模的GLM-4.6V,性能可与参数量达其2倍的Qwen3-VL-235B相媲美,这一表现印证了它在参数效率方面的突出优势——能够以更少的计算资源实现相近乃至更优的性能水准。

GLM-4.6V的核心优势- 原生工具调用能力:支持基于视觉输入的工具调用,可应对图文混排处理、识图导购及Agent场景等复杂视觉任务- 超大上下文窗口:128k长度理论上能理解150页复杂文档、200页PPT或1小时视频,单次推理即可处理多个长文档/视频- 强化代码能力:优化前端复刻与多轮视觉交互修改功能,缩短开发者从设计稿到可运行页面的开发链路- 同参数领先水平:在同等参数规模下,多模态交互、逻辑推理、长上下文处理等关键能力达到SOTA级别GLM-4.6V使用指南1. 本地部署:从GitHub或其他开源平台获取代码与模型权重,在本地设备或服务器部署运行2. 云端调用:登录智谱开放平台注册账号,获取API密钥后通过网络请求调用云端模型3. 在线体验:访问z.ai或智谱清言APP/网页版,选择GLM-4.6V模型,上传图片/输入文字后点击"推理"查看结果4. 应用集成:通过API接口或本地部署方式,将模型接入自有软件/系统实现特定功能5. 框架运行:在SGLang、transformers等支持框架中加载模型,结合GPU等硬件运行推理GLM-4.6V相关资源- GitHub仓库:https://github.com/zai-org/GLM-V- HuggingFace模型库:https://huggingface.co/collections/zai-org/glm-46v- 技术论文:https://z.ai/blog/glm-4.6vGLM-4.6V典型应用场景- 智能图文创作:输入主题或图文资料,自动生成结构清晰、图文结合的内容,适用于社交媒体、公众号等平台- 视觉购物助手:上传商品图片并下达指令,识别购物需求后搜索同款并生成导购清单,优化电商购物体验- 前端开发辅助:上传网页截图/设计稿,精准生成复刻代码并支持多轮交互修改,加速前端开发流程- 长内容理解:处理长文档/视频,支持跨文档对比分析与关键事件定位,助力复杂内容研究与理解- 多模态客服:融合视觉与文本信息提供精准解答建议,支持多轮对话,提升客户服务效率