我做了一个小实验。
把2023年1月(ChatGPT刚火的时候)的AI预测文章翻出来,跟实际情况对比。结果很有意思:关于技术细节的预测,90%都错了。但关于大方向的预测,90%都对了。
没人能准确预测AI下个月会出什么新能力,但有些趋势是确定的——不是因为有人预知未来,而是因为经济规律和发展惯性推着它们往前走。
这篇文章不谈玄乎的"AGI觉醒"或"人机融合",只谈三件接下来三年大概率会发生的事。
第一件事:Agent从"玩具"变成"实习生"
眼下你用AI的方式,本质上还是"问答模式"。你问一句,AI答一句,你继续追问,它继续答。这是对话框的遗产——我们把AI当成了一个聪明的搜索引擎。
但2025年到2026年,你会发现越来越多AI产品不再只是"回答问题",而是直接帮你把事情做了。
这个转变就是Agent(智能体)。
Agent到底是什么?
简单说:Agent是一个能自主完成多步骤任务的AI。它不再等你说一句动一下,而是你给它一个目标,它自己规划、执行、纠错、完成。
举个例子:
| 传统AI | Agent |
|---|---|
| “帮我写一封邮件回复客户” → AI写出来,你自己复制粘贴发送 | “帮我回复客户邮件” → Agent读邮件 → 分析上下文 → 写草稿 → 打开邮箱 → 检查附件 → 发送 → 给你回执 |
| “帮我订一张去北京的机票” → AI告诉你去哪个平台订 | “帮我订一张去北京的机票” → Agent查日历确定日期 → 登录航空公司 → 比较价格 → 下单付款 → 发送行程确认到日历 |
你可能觉得这不就是自动化脚本吗?是的,但区别在于:Agent面对意外情况能自己处理。如果航班满员,它会自动查另一班;如果价格超出预算,它会在微信上问你确认。传统脚本遇到未预料的情况直接崩掉,Agent会推理然后自适应。
为什么是未来三年?
三个条件正在同时成熟:
- 模型推理能力提升:GPT-4到GPT-4o到Claude 3.5,模型的"规划能力"在快速提升。没有好的推理,Agent就是一个到处乱撞的脚本。
- Function Calling标准化:OpenAI的Function Calling、Claude的Tool Use、Anthropic的MCP协议——这些让AI"调用外部工具"的门槛几乎降到了零。
- 安全护栏成型:2024年各大公司踩了很多Agent翻车的坑(AI删数据库、AI多加了几百个订单),这些经验在转化为可靠的安全框架。
真正的影响:谁用谁赢
Agent带来的不是"AI更聪明了",而是"AI更能干了"。之前你需要学Prompt工程才能用好AI,未来你只需要会说"搞定它"。
这轮变革中,受益最大的不是技术公司——而是所有能把Agent嵌入业务流程的组织。一个律所用Agent处理合同审阅,效率提升5倍;一个工厂用Agent管理供应链,库存成本下降30%。这些不是未来学的,你现在去试已经能跑通原型了。
不是有没有轮子的争论,是轮子已经装上了,就看谁先开车。
第二件事:多模态从"能看"变成"能懂"
2024年,大模型学会了看图。你可以扔一张照片给它,问"这张照片里的人在吃什么?“它能回答。但它的"看"还是文字层面的——先把图翻译成文字描述,再基于文字理解。
2025到2026年,这个能力会跨过一道坎:从"描述"到"理解”。
有什么区别?
举个例子:
能看(2024水平): 你给AI一张CT扫描图,它能告诉你"这张图显示右侧肺叶有一个直径约2cm的阴影"——这是描述。它把图中的灰度模式和位置信息跟训练数据里的相似案例匹配,然后输出一个文字描述。
能懂(即将到来的水平): 同⼀张CT图,AI不仅能描述,还能:对比三个月前同一患者的片子判断变化趋势、结合患者的临床症状数据给出鉴别诊断、指出还需要哪些补充检查来排除干扰项——这是理解。
“懂"意味着AI处理的不再是单⼀信息类型,而是多个信息类型交织在一起的整体理解。图像、文字、声音、表格、代码——这些不再被分开处理,而是在同一个模型中被融合。
能派上什么用场?
- 教育:学生拍下解题过程,AI不仅指出哪里错了,还能看到学生的思路轨迹,定位知识盲区。不是批改,是诊断。
- 医疗:AI同时看影像、化验单、病历、基因数据,给出综合判断。不是看图说话,是联合会诊。
- 工业:AI看设备运行参数的时序数据、听声音的频率频谱、看摄像头画面,综合判断设备是否即将故障。
- 内容创作:你口述一个想法,AI生成配图 + 排版 + 配乐,且所有输出在风格上保持一致。
注意一个模式:多模态真正的价值不是"能看更多东西”,而是**“让不同信息互相印证”**。这就好比破案——一个证人可能看错,但三个独立证人给出的一致证词,可信度是指数级上升的。
三年内能看到什么?
现在是2026年5月。未来三年我猜:
- 2026年底:视频理解趋近成熟,AI能看一小时的视频并准确提取时间线
- 2027年:实时多模态成为标配——你开视频会议,AI实时分析所有人的表情、语速、用词,提示会议情绪走向
- 2028年:全感官融合——文字、图像、声音、3D空间数据在同一模型中对齐
第三件事:AI成本继续暴跌,直到变成"水电气"
这件事没有悬念,因为它已经在发生了,而且速度比大多数人意识到的快得多。
看几个数字
| 时间 | 价格(GPT-4级别模型,每百万token) |
|---|---|
| 2023年3月 | ~$30(GPT-4) |
| 2024年3月 | ~$10(GPT-4-Turbo) |
| 2025年 | ~$1(DeepSeek-V3/Llama-3) |
| 2026年现在 | ~$0.15(DeepSeek-R1 / Gemini 2.5 Flash) |
三年时间,同一级别的AI能力成本下降了200倍。这个趋势没有停下来的迹象。
为什么?三个驱动因素:
- 模型架构优化:MoE(混合专家模型)让每次推理只激活一小部分参数,成本直接除以5到10
- 蒸馏技术成熟:大模型把知识压缩到小模型,小模型跑出大模型80%的效果,成本再除以10
- 开源竞争:每次开源模型追上闭源模型的水平(比如Llama 3、DeepSeek、Qwen),闭源就被迫降价
成本暴跌意味着什么?
当AI变得几乎免费时,使用模式会发生根本性变化。
就像电刚发明时,只有工厂才用得起,每个灯泡都有人专门管理和关开。现在电便宜到可以给手机充一整晚不心疼,于是有了智能家居、有了24小时监控、有了电动汽车——这些东西在"电很贵"的时代根本不存在。
AI也是一样。现在很多人还在"省着用"——问一个问题之前想"值不值得问"。但当AI成本再降一个数量级:
- 每个软件按钮后面都有一个AI:不是"打开AI助手"一个对话框,而是每个操作都有AI在背后辅助
- 批量化成为默认模式:不是写一篇文章,而是生成100个版本然后挑最好的
- AI成为基础设施:像操作系统、数据库一样,没人再讨论"要不要用AI",就像没人讨论"要不要用电"
两个值得关注的信号
- 免费模型的普及:DeepSeek、通义千问、Gemini都在推免费层。花的不是企业成本,是平台补贴来培育市场——就像当年的打车大战。
- 推理成本的极限:蒸馏 + 量化 + 专用芯片,推理成本正在逼近"算一次加法"的量级。Intel的Gaudi、AMD的MI系列、各种AI ASIC芯片正在把每token成本压到几乎为零。
三件事合在一起会发生什么?
把这三个趋势叠在一起看,画面比分开看有意思得多:
- Agent让AI从"应答机"变成"执行者"
- 多模态让AI从"文字理解"变成"世界理解"
- 成本暴跌让AI从"稀缺资源"变成"无处不在"
这三件事互相放大:便宜的推理成本让Agent可以执行更多步骤而不心疼;多模态让Agent能处理更丰富的任务场景;Agent则把多模态能力从演示变成了产品。
我没办法告诉你三年后AI具体是什么样的产品形态——可能是因为那个产品今天还没被发明出来。但我可以确定的是:三年后,你不会再问"AI能做什么",而是会问"还有什么不能交给AI"。
这个问题的答案,会比今天少很多。
说人话总结
- Agent时代来了:未来三年AI从"回答问题"变到"帮你做事",你会看到更多"你给目标,它来执行"的产品
- 多模态成熟:AI从"能看图"进化到"能理解",图像、声音、文字、数据被融合处理
- 成本暴降:三年200倍的降价只是开始,AI正在变成像水电一样的基础设施
- 三个趋势互相放大:便宜的Agent + 多模态理解 = 无处不在的智能助理
- 不用焦虑"赶不上":当成本足够低、能力足够强的时候,学习曲线也会变得更平坦——你不需要先学会用再学会赚,直接用就行了
下一步的建议很简单:去试一个Agent产品,或者自己搭一个简单的。别只停留在"和AI聊天"的阶段了。未来的三年,会用Agent和不用的,会像2023年"会用ChatGPT"和"不会用"的差距一样大。
📖 本文是MST「30天AI科普专栏」第24篇 / 共25篇 🔖 分类:行业观察 关注MST,每天一个AI小知识,把大模型讲明白。