有人用一段简单的游戏录屏,几分钟就生成了完整可玩还带音效的小游戏。整个过程生成了约 6600 tokens,速度稳定在 16 tok/s,生成一个小游戏只用了不到7分钟!

不只是小游戏。在工具调用、Agent 任务等更复杂的场景里,GLM-4.7 的反馈同样很好:单次对话就能把工具调用全部做对~

这些反馈里我们可以直观的看到:GLM-4.7 不只是生成能力更强,而是更容易一次把完整任务跑完,很少再需要人为兜底。
GLM-4.7 着重增强了代码编写、智能体及推理方面的能力,在 LiveCodeBench V6 评测中取得 84.9 分的成绩,代码能力超越 Sonnet 4.5,成为当前开源领域的最新最优水平。在 HLE 评测中,其得分达 42.8 分,较 GLM-4.6 提升 38%,同时超过了 GPT-5.1。

今天这篇内容,我们也从多个维度一起实测体验一下。
01. 一手实测:GLM-4.7全面升级
目前,GLM-4.7已经上线 Z.ai、BigModel等平台,我们在左上角模型选择器中选中GLM-4.7即可体验。
网址:https://chat.z.ai

临近年底,最近也是PPT需求量最大的时候,我们尝试做一个试试:
选择输入框下方的 AI PPT 功能,输入以下提示词:
介绍故宫。
GLM-4.7先是进行了多维度搜索,了解故宫的基本信息、历史背景、建筑特点和主要景点。

在此基础上,GLM-4.7 还会继续深入查资料,不是依赖某一篇内容,而是通过交叉读取来校验信息,比如故宫博物馆官网、维基百科、故宫相关文章等等。
同时,GLM-4.7 还会同步搜索相关图片,为后续页面配图做准备。

整个过程,其实已经非常接近我们日常做PPT的操作:先查资料,再梳理框架,最后做 PPT。
区别是,这些原本我们需要花几个小时才能完成的准备工作,GLM-4.7两分钟就完成了。
先看整体概览:

整体内容思路非常清晰,先从故宫的历史和背景讲起,中间一页一重点的逐步展开建筑特点、主要景点和文物藏品,最后自然过渡到预约参观的相关要点,逻辑非常顺。
设计方面选择了古典优雅的设计风格,很契合故宫的文化特色。
最终生成的PPT是这样的:
关键信息点给得足,但每一页都留有一定空间,方便在讲解时补充案例或个人理解。页面布局清晰,视觉重点基本都落在标题和核心信息上,还搭配了图片用来辅助理解,整体非常不错。
每一页该讲什么,哪些地方适合配图,哪些地方需要重点突出,GLM-4.7都帮你安排好了。这就是AI做PPT,最让人省心的地方。
GLM-4.7不仅提升了审美,还预置了一些PPT模板,比如商业、设计、教育、营销、技术。我们只要选对场景,效果都不会差。
很多人用 AI 做 PPT,会卡在提示词这里,想要效果高级、可控,提示词往往要写的非常细,难度不亚于写一篇论文。
z.ai 给出的解法很直接,它提供了一些常见场景的模板,比如商业、设计、教育、营销、技术。我们只要选对场景,效果都不会差。

比如,我让GLM-4.7先给我们写了一份海绵宝宝年终总结的文字稿,我们基于文字稿生成PPT试试。
提示词:请将我提供的年终工作总结内容,整理生成一份面向公司管理层的年终总结 PPT,结构清晰,突出核心成果、个人价值与下一年规划。共10页。

文字稿
一起看看生成的效果:
整体版式很有设计感,简单、好看、布局清晰。再看内容处理,GLM-4.7 完全是基于文档原始内容做提炼,把核心成果放在最显眼的位置,数据呈现醒目、直接,内容很有层次感。

我们不需要懂设计术语,不需要会排版,也不需要反复纠结文档里的哪些段落该删、该留,GLM-4.7会自动帮你判断。
GLM-4.7 不是生硬的套用模板,而是根据内容,在专业模板的基础上微调版式和视觉重心。
当然,也不是完全不用人工介入,比如第7页的排版,信息稍微集中的情况下,部分内容没有完整显示。我们可以直接点击页面右上角的编辑,让AI微调一下。
提示词:第7页,完整展示标题,将01、02、03模块整体适当上移,适当调整模块高度,让他们完整显示在页面中,并且排版整齐。

GLM-4.7会调整这一页的代码,不到2分钟我们就能看到调整后的效果,内容保持不变,但整体层次更清晰了。
不管是改文字,新增一页,删掉内容,或者把某一页的重点重新调整排序,都可以交给 GLM-4.7 处理,不需要反复手动操作,只要说清楚需求就行。
生成PPT已经非常丝滑了,我们再试试写代码。
PPT适合台上演示,但现实中,很多汇报并不是在会议现场,更多是被在线查看、被转发,这种情况下,网页在展示、交互上都比PPT更适合。
我们上传一组AI行业发展数据的表格,以此来做一个汇报试试。
提示词:基于上传的数据信息,尝试直接生成一份用于汇报的动态网页。
要求:
1.科技感数据大屏,暗黑数据叙事+ 霓虹信息高亮;
2.给出明确、清晰的分析结论;
3.页面有视觉层级:主色 + 强调色,重点数据高亮;
4.图表形式丰富(趋势 / 分布 / 对比 / 排名,不少于 6 张);
5.关键指标用数字动画突出;
6.风格简洁但有重点,避免全页同色,适合滚动浏览和投屏展示。

表格截图
最终生成的网页是这样的:
GLM-4.7 并没有止步于数据可视化,而是给出了清晰的分析结论,告诉我们这些数据意味着什么,而不是只负责展示数据是什么情况。重点数据通过动画的形式呈现,能快速抓住注意力。
GLM-4.7 最直观的变化,其实是审美。比如我们尝试生成一个活动预告。
设计一张融合科技感与奶茶品牌联名风格的宣传海报。整体采用明亮活泼的商业海报设计基调,主色调选用草莓红、奶油白与浅粉色,辅以少量霓虹蓝科技光效作为点缀。海报核心信息为:若您正在使用Bigmodel.cn的Coding Plan,在Claude Code等编程工具中输入口令“阿姨助我!”,即可领取沪上阿姨新品「QQ美莓奶茶」兑换券,登录沪上阿姨小程序即可使用该券。

GLM-4.7 正确搜索并使用了沪上阿姨和「QQ 美莓奶茶」的真实视觉特征,从品牌标识、杯型到草莓系配色,都有很强的真实感。
在活动信息并不短的情况下,GLM-4.7 没有把所有文字硬塞进画面,而是抓住了真正的核心信息,排版也很清晰:主视觉聚焦新品奶茶和联名关系,中段用终端窗口强化“程序员操作”的隐喻,下方还有使用方式的提醒。
这正是 GLM-4.7 审美升级最重要的地方——不只是更会画,而是更会做设计判断,知道什么该被看见。
彩蛋:智谱真的给大家准备了奶茶哦,正在用 GLM Coding Plan 的友友们快去领~

提示词:开发一款音游。
小游戏和前面的 PPT、网页不一样,不只是展示结果,还要求持续响应用户行为。节奏是否对得上、操作有没有反馈、失败和成功的边界清不清楚,都会直接影响体验。
GLM-4.7生成的小游戏逻辑完整、规则清晰,打开就能开玩。音符的出现、节奏的判定、得分反馈,都做的很不错,说明 GLM-4.7 并不是简单的拼凑功能,而是按照玩法逻辑来组织代码,这一点挺让人惊艳的。
不过,一个简单的小游戏,依然不足以真正触及它的代码能力上限。所以下一步,我们把难度再拉高一个量级,直接让它开发一个带完整业务逻辑的真实项目:一个二手物品交易平台。
提示词:开发一个二手物品交易网站,包含前端和后台管理系统,用户可以浏览、搜索商品,并下单。后台管理系统可以管理产品、发货以及数据统计。
这一次,GLM-4.7同样只用了几分钟,就完成了整个项目的开发。
前端:
首页里商品列表、分类筛选、搜索、商品卡片…这些关键路径都已经跑通,页面层级很清晰。
而是明显按真实交易流程来组织页面结构: 先浏览 → 再筛选 → 看详情 → 加入购物车 → 下单 → 输入收货信息,操作流程很顺畅。
一个真正的交易系统,前端只是入口。真正决定它是不是“项目级系统”的,是后台是否存在,以及后台是否能接管商品、订单和状态的变化。
接下来,我们一起看看 GLM-4.7 生成的后台管理系统:
数据统计、商品管理、订单管理这些核心指标都很清晰,在后台管理系统里我们可以完成商品的增、删、改、查,还可以查看实时数据和发货情况,整体功能使用且全面。
02. 关于 GLM-4.7 的 AMA
Z.AI 研究实验室在 Reddit 专门开设了一场 AMA(Ask Me Anything),由 GLM-4.7 的核心研发成员在线解答,下面是 AMA 中大家关注度比较高的一些问题和回复:
Q:在公司上市之后,你们还会继续发布模型权重吗?
A:会的。GLM 团队将持续推进通用人工智能(AGI)方向的研究,并继续为开源社区做出贡献。
从团队态度来看,GLM-4.7 是 Z.AI 会持续迭代的一条路线。开源对他们而言并非阶段性策略,而是与模型能力、生态建设一同被视作长期投入。对于真正计划将模型应用于项目、甚至部署到生产环境的人来说,这一点比跑分本身重要得多。
Q:我们可以期待你们推出专门针对编程的模型吗?
A:我们没有推出独立纯编程模型的计划。我们认为代码、Agent(智能体)与推理能力在同一个模型里是相互促进的。就像复杂的编程任务通常离不开充分的推理,而Agent稳定执行也需要扎实的编程技能作为支撑。所以我们把精力放在构建一个在这些维度都表现出色的统一模型上。
这个回答恰好印证了此前实测中我最直观的一个体会:GLM-4.7并非在某单一能力上格外突出,而是整体协同性更为出色。团队清晰地将Coding、Agent与Reasoning视为一个有机整体来精研打磨,这就如同一个完整的木桶,真正决定其盛水量的,从来不是某一块木板的高度,而是整体是否存在明显的短板。
Q:Interleaved Thinking(交错思考)在 OpenAI Chat Completions API 上运行效果好吗?
A:我们已经让Interleaved Thinking可以兼容Chat Completion API了,大家只要记得在每一条历史消息里把“reasoning_content”(推理内容)回传回去就行。用这种方法的话,性能是保持一致的。
我们还推出了“Preserved Thinking”(保留思考)功能,开启该功能后,即使用户之前轮次里的思考内容也不会被舍弃。这对于在编程Agent(智能体)场景下维持一致性而言十分有用。具体情况可查看我们的博客。
Preserved Thinking 实际上是在解决稳定性问题,很多 Agent 任务失败,并不是模型推理能力差,而是在长流程里丢了之前的思考。
Preserved Thinking 的意义就在于,它让模型在多轮对话中不轻易丢失上下文判断,从而保持行为一致性。这也是实际使用中,GLM-4.7 在长任务里表现更稳的原因。
Q:训练过程中最意想不到的挑战是什么?你们是如何解决的?
A:由于 GLM-4.7 主要通过后训练(post-training)进行改进,对我而言,最大的意外挑战是“发布配方(release recipe)”即如何训练出一个准备好发布的最终模型。
在实践中,针对不同的领域,不同的团队通常拥有各自的数据以及SFT(监督微调)/ RL(强化学习)配方。当我们试图将所有内容整合在一起进行正式发布时,很难在不损害其他方面的前提下融合这些能力。
我们的解决思路如下:对数据配比(data mix)进行精细调整,识别并剔除与其他数据存在冲突的部分,同时开展了大量消融实验。在强化学习(RL)领域,我们还运用了一种类LoRA的技术,旨在增强特定目标技能的同时,确保其他能力不受影响。上述所有调整工作,均是在大规模评测的指引下推进完成的。
这也解释了为什么 GLM-4.7 的提升,并不是简单把某一项能力拉到极致,而是在不同能力之间反复取舍、尽量避免相互损害。换句话说,GLM-4.7 是在解决整体可用性的问题,而不是追求单点突破。
如果你也对 GLM-4.7 的能力边界和设计取舍感兴趣,不妨去 AMA 评论区看看已有讨论,能了解不少一手信息,也可以补充自己的问题一起交流~
03. 一些分享
GLM-4.7 对真实使用场景的适配明显更好了,生成的 PPT 在16:9的宽屏比例上更稳定,内容和视觉的结合也明显更成熟了,整体更接近即用状态。
GLM-4.7 的 Coding、Reasoning 和 Agent 能力,在同一个任务中稳定协同,它会先理解目标,再拆解步骤,然后逐步完成。
这意味着,GLM-4.7 已经可以完整的交付任务。PPT、网页这类偏表达的工作内容,几乎不需要人介入;简单交互和基础原型,也将不再是技术门槛。
未来真正稀缺的,不是某项技能,而是知道该做什么,判断什么值得做,以及如何把结果真正用起来。
技术门槛在下降,而判断力和决策能力,正在悄悄升值。
原文链接:被GLM-4.7刷屏,真的有那么强吗?