AI的未来三年会怎样？——从技术、商业、社会看三件必然发生的事

我做了一个小实验。

把2023年1月（ChatGPT刚火的时候）的AI预测文章翻出来，跟实际情况对比。结果很有意思：关于技术细节的预测，90%都错了。但关于大方向的预测，90%都对了。

没人能准确预测AI下个月会出什么新能力，但有些趋势是确定的——不是因为有人预知未来，而是因为经济规律和发展惯性推着它们往前走。

这篇文章不谈玄乎的"AGI觉醒"或"人机融合"，只谈三件接下来三年大概率会发生的事。

第一件事：Agent从"玩具"变成"实习生"

眼下你用AI的方式，本质上还是"问答模式"。你问一句，AI答一句，你继续追问，它继续答。这是对话框的遗产——我们把AI当成了一个聪明的搜索引擎。

但2025年到2026年，你会发现越来越多AI产品不再只是"回答问题"，而是直接帮你把事情做了。

这个转变就是Agent（智能体）。

Agent到底是什么？

简单说：Agent是一个能自主完成多步骤任务的AI。它不再等你说一句动一下，而是你给它一个目标，它自己规划、执行、纠错、完成。

举个例子：

传统AI	Agent
“帮我写一封邮件回复客户” → AI写出来，你自己复制粘贴发送	“帮我回复客户邮件” → Agent读邮件 → 分析上下文 → 写草稿 → 打开邮箱 → 检查附件 → 发送 → 给你回执
“帮我订一张去北京的机票” → AI告诉你去哪个平台订	“帮我订一张去北京的机票” → Agent查日历确定日期 → 登录航空公司 → 比较价格 → 下单付款 → 发送行程确认到日历

你可能觉得这不就是自动化脚本吗？是的，但区别在于：Agent面对意外情况能自己处理。如果航班满员，它会自动查另一班；如果价格超出预算，它会在微信上问你确认。传统脚本遇到未预料的情况直接崩掉，Agent会推理然后自适应。

为什么是未来三年？

三个条件正在同时成熟：

模型推理能力提升：GPT-4到GPT-4o到Claude 3.5，模型的"规划能力"在快速提升。没有好的推理，Agent就是一个到处乱撞的脚本。
Function Calling标准化：OpenAI的Function Calling、Claude的Tool Use、Anthropic的MCP协议——这些让AI"调用外部工具"的门槛几乎降到了零。
安全护栏成型：2024年各大公司踩了很多Agent翻车的坑（AI删数据库、AI多加了几百个订单），这些经验在转化为可靠的安全框架。

真正的影响：谁用谁赢

Agent带来的不是"AI更聪明了"，而是"AI更能干了"。之前你需要学Prompt工程才能用好AI，未来你只需要会说"搞定它"。

这轮变革中，受益最大的不是技术公司——而是所有能把Agent嵌入业务流程的组织。一个律所用Agent处理合同审阅，效率提升5倍；一个工厂用Agent管理供应链，库存成本下降30%。这些不是未来学的，你现在去试已经能跑通原型了。

不是有没有轮子的争论，是轮子已经装上了，就看谁先开车。

第二件事：多模态从"能看"变成"能懂"

2024年，大模型学会了看图。你可以扔一张照片给它，问"这张照片里的人在吃什么？“它能回答。但它的"看"还是文字层面的——先把图翻译成文字描述，再基于文字理解。

2025到2026年，这个能力会跨过一道坎：从"描述"到"理解”。

有什么区别？

举个例子：

能看（2024水平）：你给AI一张CT扫描图，它能告诉你"这张图显示右侧肺叶有一个直径约2cm的阴影"——这是描述。它把图中的灰度模式和位置信息跟训练数据里的相似案例匹配，然后输出一个文字描述。

能懂（即将到来的水平）：同⼀张CT图，AI不仅能描述，还能：对比三个月前同一患者的片子判断变化趋势、结合患者的临床症状数据给出鉴别诊断、指出还需要哪些补充检查来排除干扰项——这是理解。

“懂"意味着AI处理的不再是单⼀信息类型，而是多个信息类型交织在一起的整体理解。图像、文字、声音、表格、代码——这些不再被分开处理，而是在同一个模型中被融合。

能派上什么用场？

教育：学生拍下解题过程，AI不仅指出哪里错了，还能看到学生的思路轨迹，定位知识盲区。不是批改，是诊断。
医疗：AI同时看影像、化验单、病历、基因数据，给出综合判断。不是看图说话，是联合会诊。
工业：AI看设备运行参数的时序数据、听声音的频率频谱、看摄像头画面，综合判断设备是否即将故障。
内容创作：你口述一个想法，AI生成配图 + 排版 + 配乐，且所有输出在风格上保持一致。

注意一个模式：多模态真正的价值不是"能看更多东西”，而是**“让不同信息互相印证”**。这就好比破案——一个证人可能看错，但三个独立证人给出的一致证词，可信度是指数级上升的。

三年内能看到什么？

现在是2026年5月。未来三年我猜：

2026年底：视频理解趋近成熟，AI能看一小时的视频并准确提取时间线
2027年：实时多模态成为标配——你开视频会议，AI实时分析所有人的表情、语速、用词，提示会议情绪走向
2028年：全感官融合——文字、图像、声音、3D空间数据在同一模型中对齐

第三件事：AI成本继续暴跌，直到变成"水电气"

这件事没有悬念，因为它已经在发生了，而且速度比大多数人意识到的快得多。

看几个数字

时间	价格（GPT-4级别模型，每百万token）
2023年3月	~$30（GPT-4）
2024年3月	~$10（GPT-4-Turbo）
2025年	~$1（DeepSeek-V3/Llama-3）
2026年现在	~$0.15（DeepSeek-R1 / Gemini 2.5 Flash）

三年时间，同一级别的AI能力成本下降了200倍。这个趋势没有停下来的迹象。

为什么？三个驱动因素：

模型架构优化：MoE（混合专家模型）让每次推理只激活一小部分参数，成本直接除以5到10
蒸馏技术成熟：大模型把知识压缩到小模型，小模型跑出大模型80%的效果，成本再除以10
开源竞争：每次开源模型追上闭源模型的水平（比如Llama 3、DeepSeek、Qwen），闭源就被迫降价

成本暴跌意味着什么？

当AI变得几乎免费时，使用模式会发生根本性变化。

就像电刚发明时，只有工厂才用得起，每个灯泡都有人专门管理和关开。现在电便宜到可以给手机充一整晚不心疼，于是有了智能家居、有了24小时监控、有了电动汽车——这些东西在"电很贵"的时代根本不存在。

AI也是一样。现在很多人还在"省着用"——问一个问题之前想"值不值得问"。但当AI成本再降一个数量级：

每个软件按钮后面都有一个AI：不是"打开AI助手"一个对话框，而是每个操作都有AI在背后辅助
批量化成为默认模式：不是写一篇文章，而是生成100个版本然后挑最好的
AI成为基础设施：像操作系统、数据库一样，没人再讨论"要不要用AI"，就像没人讨论"要不要用电"

两个值得关注的信号

免费模型的普及：DeepSeek、通义千问、Gemini都在推免费层。花的不是企业成本，是平台补贴来培育市场——就像当年的打车大战。
推理成本的极限：蒸馏 + 量化 + 专用芯片，推理成本正在逼近"算一次加法"的量级。Intel的Gaudi、AMD的MI系列、各种AI ASIC芯片正在把每token成本压到几乎为零。

三件事合在一起会发生什么？

把这三个趋势叠在一起看，画面比分开看有意思得多：

Agent让AI从"应答机"变成"执行者"
多模态让AI从"文字理解"变成"世界理解"
成本暴跌让AI从"稀缺资源"变成"无处不在"

这三件事互相放大：便宜的推理成本让Agent可以执行更多步骤而不心疼；多模态让Agent能处理更丰富的任务场景；Agent则把多模态能力从演示变成了产品。

我没办法告诉你三年后AI具体是什么样的产品形态——可能是因为那个产品今天还没被发明出来。但我可以确定的是：三年后，你不会再问"AI能做什么"，而是会问"还有什么不能交给AI"。

这个问题的答案，会比今天少很多。

说人话总结

Agent时代来了：未来三年AI从"回答问题"变到"帮你做事"，你会看到更多"你给目标，它来执行"的产品
多模态成熟：AI从"能看图"进化到"能理解"，图像、声音、文字、数据被融合处理
成本暴降：三年200倍的降价只是开始，AI正在变成像水电一样的基础设施
三个趋势互相放大：便宜的Agent + 多模态理解 = 无处不在的智能助理
不用焦虑"赶不上"：当成本足够低、能力足够强的时候，学习曲线也会变得更平坦——你不需要先学会用再学会赚，直接用就行了

下一步的建议很简单：去试一个Agent产品，或者自己搭一个简单的。别只停留在"和AI聊天"的阶段了。未来的三年，会用Agent和不用的，会像2023年"会用ChatGPT"和"不会用"的差距一样大。

📖 本文是MST「30天AI科普专栏」第24篇 / 共25篇 🔖 分类：行业观察 关注MST，每天一个AI小知识，把大模型讲明白。