实测GLM-4.7的代码能力已超越ClaudeSonnet4.5，成为开源领域的最新SOTA

发布时间：2026-02-12 00:32:10admin

有人用一段简单的游戏录屏，几分钟就生成了完整可玩还带音效的小游戏。整个过程生成了约 6600 tokens，速度稳定在 16 tok/s，生成一个小游戏只用了不到7分钟！

不只是小游戏。在工具调用、Agent 任务等更复杂的场景里，GLM-4.7 的反馈同样很好：单次对话就能把工具调用全部做对~

这些反馈里我们可以直观的看到：GLM-4.7 不只是生成能力更强，而是更容易一次把完整任务跑完，很少再需要人为兜底。

GLM-4.7 着重增强了代码编写、智能体及推理方面的能力，在 LiveCodeBench V6 评测中取得 84.9 分的成绩，代码能力超越 Sonnet 4.5，成为当前开源领域的最新最优水平。在 HLE 评测中，其得分达 42.8 分，较 GLM-4.6 提升 38%，同时超过了 GPT-5.1。

今天这篇内容，我们也从多个维度一起实测体验一下。

01. 一手实测:GLM-4.7全面升级

目前，GLM-4.7已经上线 Z.ai、BigModel等平台，我们在左上角模型选择器中选中GLM-4.7即可体验。

网址：https://chat.z.ai

case1 一句话生成PPT

临近年底，最近也是PPT需求量最大的时候，我们尝试做一个试试：

选择输入框下方的 AI PPT 功能，输入以下提示词：

介绍故宫。

GLM-4.7先是进行了多维度搜索，了解故宫的基本信息、历史背景、建筑特点和主要景点。

在此基础上，GLM-4.7 还会继续深入查资料，不是依赖某一篇内容，而是通过交叉读取来校验信息，比如故宫博物馆官网、维基百科、故宫相关文章等等。

同时，GLM-4.7 还会同步搜索相关图片，为后续页面配图做准备。

整个过程，其实已经非常接近我们日常做PPT的操作：先查资料，再梳理框架，最后做 PPT。

区别是，这些原本我们需要花几个小时才能完成的准备工作，GLM-4.7两分钟就完成了。

先看整体概览：

整体内容思路非常清晰，先从故宫的历史和背景讲起，中间一页一重点的逐步展开建筑特点、主要景点和文物藏品，最后自然过渡到预约参观的相关要点，逻辑非常顺。

设计方面选择了古典优雅的设计风格，很契合故宫的文化特色。

最终生成的PPT是这样的：

关键信息点给得足，但每一页都留有一定空间，方便在讲解时补充案例或个人理解。页面布局清晰，视觉重点基本都落在标题和核心信息上，还搭配了图片用来辅助理解，整体非常不错。

每一页该讲什么，哪些地方适合配图，哪些地方需要重点突出，GLM-4.7都帮你安排好了。这就是AI做PPT，最让人省心的地方。

GLM-4.7不仅提升了审美，还预置了一些PPT模板，比如商业、设计、教育、营销、技术。我们只要选对场景，效果都不会差。

case2 PPT设计模板

很多人用 AI 做 PPT，会卡在提示词这里，想要效果高级、可控，提示词往往要写的非常细，难度不亚于写一篇论文。

z.ai 给出的解法很直接，它提供了一些常见场景的模板，比如商业、设计、教育、营销、技术。我们只要选对场景，效果都不会差。

比如，我让GLM-4.7先给我们写了一份海绵宝宝年终总结的文字稿，我们基于文字稿生成PPT试试。

提示词：请将我提供的年终工作总结内容，整理生成一份面向公司管理层的年终总结 PPT，结构清晰，突出核心成果、个人价值与下一年规划。共10页。

文字稿

一起看看生成的效果：

整体版式很有设计感，简单、好看、布局清晰。再看内容处理，GLM-4.7 完全是基于文档原始内容做提炼，把核心成果放在最显眼的位置，数据呈现醒目、直接，内容很有层次感。

我们不需要懂设计术语，不需要会排版，也不需要反复纠结文档里的哪些段落该删、该留，GLM-4.7会自动帮你判断。

GLM-4.7 不是生硬的套用模板，而是根据内容，在专业模板的基础上微调版式和视觉重心。

当然，也不是完全不用人工介入，比如第7页的排版，信息稍微集中的情况下，部分内容没有完整显示。我们可以直接点击页面右上角的编辑，让AI微调一下。

提示词：第7页，完整展示标题，将01、02、03模块整体适当上移，适当调整模块高度，让他们完整显示在页面中，并且排版整齐。

GLM-4.7会调整这一页的代码，不到2分钟我们就能看到调整后的效果，内容保持不变，但整体层次更清晰了。

不管是改文字，新增一页，删掉内容，或者把某一页的重点重新调整排序，都可以交给 GLM-4.7 处理，不需要反复手动操作，只要说清楚需求就行。

生成PPT已经非常丝滑了，我们再试试写代码。

case3 互动网页

PPT适合台上演示，但现实中，很多汇报并不是在会议现场，更多是被在线查看、被转发，这种情况下，网页在展示、交互上都比PPT更适合。

我们上传一组AI行业发展数据的表格，以此来做一个汇报试试。

提示词：基于上传的数据信息，尝试直接生成一份用于汇报的动态网页。

要求：

1.科技感数据大屏，暗黑数据叙事+ 霓虹信息高亮；

2.给出明确、清晰的分析结论；

3.页面有视觉层级：主色 + 强调色，重点数据高亮；

4.图表形式丰富（趋势 / 分布 / 对比 / 排名，不少于 6 张）；

5.关键指标用数字动画突出；

6.风格简洁但有重点，避免全页同色，适合滚动浏览和投屏展示。

表格截图

最终生成的网页是这样的：

GLM-4.7 并没有止步于数据可视化，而是给出了清晰的分析结论，告诉我们这些数据意味着什么，而不是只负责展示数据是什么情况。重点数据通过动画的形式呈现，能快速抓住注意力。

case4 活动海报

GLM-4.7 最直观的变化，其实是审美。比如我们尝试生成一个活动预告。

设计一张融合科技感与奶茶品牌联名风格的宣传海报。整体采用明亮活泼的商业海报设计基调，主色调选用草莓红、奶油白与浅粉色，辅以少量霓虹蓝科技光效作为点缀。海报核心信息为：若您正在使用Bigmodel.cn的Coding Plan，在Claude Code等编程工具中输入口令“阿姨助我！”，即可领取沪上阿姨新品「QQ美莓奶茶」兑换券，登录沪上阿姨小程序即可使用该券。

GLM-4.7 正确搜索并使用了沪上阿姨和「QQ 美莓奶茶」的真实视觉特征，从品牌标识、杯型到草莓系配色，都有很强的真实感。

在活动信息并不短的情况下，GLM-4.7 没有把所有文字硬塞进画面，而是抓住了真正的核心信息，排版也很清晰：主视觉聚焦新品奶茶和联名关系，中段用终端窗口强化“程序员操作”的隐喻，下方还有使用方式的提醒。

这正是 GLM-4.7 审美升级最重要的地方——不只是更会画，而是更会做设计判断，知道什么该被看见。

彩蛋：智谱真的给大家准备了奶茶哦，正在用 GLM Coding Plan 的友友们快去领~

case5 小游戏

提示词：开发一款音游。

小游戏和前面的 PPT、网页不一样，不只是展示结果，还要求持续响应用户行为。节奏是否对得上、操作有没有反馈、失败和成功的边界清不清楚，都会直接影响体验。

GLM-4.7生成的小游戏逻辑完整、规则清晰，打开就能开玩。音符的出现、节奏的判定、得分反馈，都做的很不错，说明 GLM-4.7 并不是简单的拼凑功能，而是按照玩法逻辑来组织代码，这一点挺让人惊艳的。

case6 全栈开发

不过，一个简单的小游戏，依然不足以真正触及它的代码能力上限。所以下一步，我们把难度再拉高一个量级，直接让它开发一个带完整业务逻辑的真实项目：一个二手物品交易平台。

提示词：开发一个二手物品交易网站，包含前端和后台管理系统，用户可以浏览、搜索商品，并下单。后台管理系统可以管理产品、发货以及数据统计。

这一次，GLM-4.7同样只用了几分钟，就完成了整个项目的开发。

前端：

首页里商品列表、分类筛选、搜索、商品卡片…这些关键路径都已经跑通，页面层级很清晰。

而是明显按真实交易流程来组织页面结构：先浏览 → 再筛选 → 看详情 → 加入购物车 → 下单 → 输入收货信息，操作流程很顺畅。

一个真正的交易系统，前端只是入口。真正决定它是不是“项目级系统”的，是后台是否存在，以及后台是否能接管商品、订单和状态的变化。

接下来，我们一起看看 GLM-4.7 生成的后台管理系统：

数据统计、商品管理、订单管理这些核心指标都很清晰，在后台管理系统里我们可以完成商品的增、删、改、查，还可以查看实时数据和发货情况，整体功能使用且全面。

02. 关于 GLM-4.7 的 AMA

Z.AI 研究实验室在 Reddit 专门开设了一场 AMA（Ask Me Anything），由 GLM-4.7 的核心研发成员在线解答，下面是 AMA 中大家关注度比较高的一些问题和回复：

Q：在公司上市之后，你们还会继续发布模型权重吗？

A：会的。GLM 团队将持续推进通用人工智能（AGI）方向的研究，并继续为开源社区做出贡献。

从团队态度来看，GLM-4.7 是 Z.AI 会持续迭代的一条路线。开源对他们而言并非阶段性策略，而是与模型能力、生态建设一同被视作长期投入。对于真正计划将模型应用于项目、甚至部署到生产环境的人来说，这一点比跑分本身重要得多。

Q：我们可以期待你们推出专门针对编程的模型吗？

A：我们没有推出独立纯编程模型的计划。我们认为代码、Agent（智能体）与推理能力在同一个模型里是相互促进的。就像复杂的编程任务通常离不开充分的推理，而Agent稳定执行也需要扎实的编程技能作为支撑。所以我们把精力放在构建一个在这些维度都表现出色的统一模型上。

这个回答恰好印证了此前实测中我最直观的一个体会：GLM-4.7并非在某单一能力上格外突出，而是整体协同性更为出色。团队清晰地将Coding、Agent与Reasoning视为一个有机整体来精研打磨，这就如同一个完整的木桶，真正决定其盛水量的，从来不是某一块木板的高度，而是整体是否存在明显的短板。

Q：Interleaved Thinking（交错思考）在 OpenAI Chat Completions API 上运行效果好吗？

A：我们已经让Interleaved Thinking可以兼容Chat Completion API了，大家只要记得在每一条历史消息里把“reasoning_content”（推理内容）回传回去就行。用这种方法的话，性能是保持一致的。

我们还推出了“Preserved Thinking”（保留思考）功能，开启该功能后，即使用户之前轮次里的思考内容也不会被舍弃。这对于在编程Agent（智能体）场景下维持一致性而言十分有用。具体情况可查看我们的博客。

Preserved Thinking 实际上是在解决稳定性问题，很多 Agent 任务失败，并不是模型推理能力差，而是在长流程里丢了之前的思考。

Preserved Thinking 的意义就在于，它让模型在多轮对话中不轻易丢失上下文判断，从而保持行为一致性。这也是实际使用中，GLM-4.7 在长任务里表现更稳的原因。

Q：训练过程中最意想不到的挑战是什么？你们是如何解决的？

A：由于 GLM-4.7 主要通过后训练（post-training）进行改进，对我而言，最大的意外挑战是“发布配方（release recipe）”即如何训练出一个准备好发布的最终模型。

在实践中，针对不同的领域，不同的团队通常拥有各自的数据以及SFT（监督微调）/ RL（强化学习）配方。当我们试图将所有内容整合在一起进行正式发布时，很难在不损害其他方面的前提下融合这些能力。

我们的解决思路如下：对数据配比（data mix）进行精细调整，识别并剔除与其他数据存在冲突的部分，同时开展了大量消融实验。在强化学习（RL）领域，我们还运用了一种类LoRA的技术，旨在增强特定目标技能的同时，确保其他能力不受影响。上述所有调整工作，均是在大规模评测的指引下推进完成的。

这也解释了为什么 GLM-4.7 的提升，并不是简单把某一项能力拉到极致，而是在不同能力之间反复取舍、尽量避免相互损害。换句话说，GLM-4.7 是在解决整体可用性的问题，而不是追求单点突破。

如果你也对 GLM-4.7 的能力边界和设计取舍感兴趣，不妨去 AMA 评论区看看已有讨论，能了解不少一手信息，也可以补充自己的问题一起交流~

03. 一些分享

GLM-4.7 对真实使用场景的适配明显更好了，生成的 PPT 在16:9的宽屏比例上更稳定，内容和视觉的结合也明显更成熟了，整体更接近即用状态。

GLM-4.7 的 Coding、Reasoning 和 Agent 能力，在同一个任务中稳定协同，它会先理解目标，再拆解步骤，然后逐步完成。

这意味着，GLM-4.7 已经可以完整的交付任务。PPT、网页这类偏表达的工作内容，几乎不需要人介入；简单交互和基础原型，也将不再是技术门槛。

未来真正稀缺的，不是某项技能，而是知道该做什么，判断什么值得做，以及如何把结果真正用起来。

技术门槛在下降，而判断力和决策能力，正在悄悄升值。

原文链接：被GLM-4.7刷屏，真的有那么强吗？

攻略资讯

查看更多 →