智谱发的“干活Agent”，不用邀请码

0次浏览发布时间：2025-04-01 20:18:00

文｜周鑫雨

编辑｜苏建勋

交出后DeepSeek R1时代的答卷，对如今的六小虎而言，显得尤为重要。

DeepSeek R1和Manus，已经分别在推理模型和AI Agent领域炸了场。对于后来者而言，跟随是最为保守的路径。比如，百度发布了推理模型文心X1，腾讯上线了混元深度思考模型T1。

在3月31日的OpenDay上，在国内资本市场拿钱到手软的智谱，开年交出的答卷则是R1和Manus的“plus版本”——具有深度思考能力的Agent产品，“AutoGLM 沉思（以下简称‘沉思’）”，已经免费上线。

AutoGLM沉思。

智谱旗下的初代AutoGLM，曾在2024年11月，实现了第一个由AI发出的红包：AI发了人类历史上第一个红包。“沉思”的班味儿则更重些。就像一位人类实习生，它能够基于开放的自然语言问题，理解、分析、搜索信源。

并且比“联网搜索”更进一步，“沉思”能查看如知网、小红书、公众号、京东、巨潮资讯等不对外开放API的信源，同时具有多模态理解能力，能够理解网页上的图文信息。

张鹏展示的一个案例是：用“沉思”运营小红书账号，两周涨粉5000，还接到了商单。

小红书起号的关键，一是更新频率高，二是话题吸引人。只要输入想讨论的热门话题，比如“手冲咖啡全套设备种草攻略”，“沉思”就能从小红书、知乎等平台，根据上百个信源自动做好了总结。

智谱用“沉思”运营的小红书。

DeepSeek App一举创下3000万日活的神话后，AI厂商对产品范式的认知，逐渐有了变化：应用的最终形态，就是模型；所谓的应用，也成了模型能力的秀场。

可以明显感受到，“沉思”的交互界面设计，相较于Manus，更突显了模型本身的思考能力。

在思考过程中，“沉思”展现的是“思考”，从理解问题、拆解问题出发，通过信息检索，再列出解决方案的框架。而Manus着重展现的是“行动”，可视面板显示的是AI调用工具的过程。

“沉思”和Manus的界面对比。上为“沉思”，下为Manus。

比起具有“成为全球首款通用智能体”野心的Manus，“沉思”对于当下智谱的意义，比起可用和落地，在于通过秀出思维链，展现其模型实力。

智谱AutoGLM负责人刘潇也直言，虽然“沉思”能够执行研报整理等简单任务，但当前提供给大众的，只是一个预览版本，还有很多的不足。

一个直观的对比是，Manus通过调用Claude的Computer Use能力，能够实现跨PC、App等多端的操作，并且交付出PPT、网页等拥有具体形态的结果。

比如，输入Prompt“请制作一个jellycat主题的吃豆人网页游戏，素材颜色饱和度不要太高”，Manus能直接交付一个像模像样的游戏网页（虽然执行时间长达45min，且游戏存在bug）。

Manus交付的吃豆人网页游戏。

但当前的“沉思”预览版能交付的，仍然是类似于Deep Research（OpenAI推出的研究智能体）的研究整理，无法开箱即用。

输入上述的Prompt，“沉思”只能输出实现游戏的代码，用户还需要额外复制和运行，对非技术背景的用户并不友好。

“沉思”交付的是游戏代码。

一名智谱员工告诉《智能涌现》，“沉思”仍是一个试验性产品，“‘沉思’还不能跨端操作，如果要实现这点，就必须集成GLM-PC（智谱推出的电脑操作模型）等类似Computer Use的功能。”

在Agent上下了一番功夫，智谱想要展示的到底是怎样的技术实力？

OpenDay上，张鹏解析了实现“沉思”所需的模型组合：基座模型GLM-4-Air-0414，推理模型GLM-Z1-Air，以及沉思模型GLM- Z1——这三款新模型，分别对应Agent所需的语言理解、问题分析，以及反思验证能力。

“沉思”背后的新模型。

值得一提的是，智谱提出了“沉思大模型”的概念，这也代表了智谱对R1下一阶段的探索。在张鹏看来，单纯依赖内部知识推理，让传统AI具有相当大的局限性。

比带有局限性的推理更进一步，“沉思”要求AI能够实时联网搜索、动态工具调用、深度分析和自我验证，进而保证交付成功的可靠性和实用性。

“价格屠夫”DeepSeek的掀桌，同样在逼迫后来者或是开源，或是提供更高性价比的模型。

智谱新发布的三款模型中，推理模型 GLM-Z1-Air的推理速度相比R1提升了8倍，但成本仅有1/30，还能在消费级显卡上运行。与此同时，这三款新模型也将在4月14日悉数开源。

当然，身处“后DeepSeek”时代，思考是否坚持预训练、如何做商业化，是如今六小虎不得不回答的问题。

以下是智谱CEO张鹏在发布会上，关于Agent和模型技术，以及商业化的一些思考，略经《智能涌现》编辑：

预训练仍然很重要。预训练虽然现在关注度不那么高，但是RL（强化学习）等各种方法，本质上还是依赖预训练所带来的基座模型天花板。作为基座模型厂商，预训练是我们一定会坚持的事情。
未来的新应用形态，尤其是智能体的应用形态，还是会回归到模型上。未来很多的应用会以模型为核心，包上一个很浅的或者很薄的产品化，应用性的壳就会变成一个产品。模型能力一旦提升产品能力就得到提升，这是很典型的新应用范式的变化。
中间的所有产品化、工程化的方法，它是权宜之计，是折中式的解决方案。当造出一个像人一样聪明的脑子之后，工程上的事情就比较少，只需要给它装上手和眼睛就像人一样可以完成很多工作，这是AGI的终极目标。
不只是大模型推理满足Scaling Law，我们发现，Agent 也存在类似的Scaling Law。通过扩展训练时的inference compute（推理计算），我们观察到Agent展现出了更强的性能。
企业或者用户不管是调API，还是买模型，怎么使用好这个模型是大家面临最大的问题。在这样一个前提下，开源不开源，免费不免费，本身已经不是特别关键的问题，落地需要双方的磨合。
过去历史的经验，包括像MySQL也好，还有RedHat，其实已经证明了开源并不等于完全免费，还包括后期技术人员的投入、维护的成本，包括探索怎么把DeepSeek做本地化等等，你要找专业的团队。因此服务是开源的商业模式。
通用Agent不能有短板。为什么AI的思考能力、文字能力远超你，但还是不如你？因为它的能力参差不齐。明显短板的存在，就会导致应用的成功率急剧下降。
为什么现在的Agent会被第三方平台拦截？本质上还是不够聪明。如果真的通过图灵测试，我相信现在的封禁和拦截策略也很难做的到。所以规避拦截本质上是工程技术问题。
我们在具身智能上会有相应的布局，但可能还需要一点时间。
我不认为我们是To B的公司，我讨厌贴标签。我们只做自己认为有意义的事情，这些事情会在不同的场景或者不同的客户那里，产生不同的应用方式和不同的价值。

欢迎交流！

本文分类：实时讯息
本文标签：沉思模型的是能力开源智能产品基座
浏览次数：0 次浏览
发布日期：2025-04-01 20:18:00
本文链接：https://m.enbk.net/news/qbyx1ZmWnL.html

上一篇 > 知名女主播偷税被追缴处罚758万
下一篇 > 今年已安排超2300亿元超长期特别国债支持“两重”建设

栏目导航