一、Token到底是个啥?
把Token想象成"字"就好理解了。
你问AI一个问题,AI回答你一段话。这段话在AI眼里不是一个字一个字看的,而是一小块一小块看的。这一小块就叫一个Token。
那为什么AI要一块一块地看,不能一个字一个字地看?
打个比方你就明白了:
你学英语的时候,是一个字母一个字母地读"t-o-d-a-y",还是直接看"today"这个完整的词?肯定是直接看完整的词更快对吧?
AI也是一样。AI不是真的"认识"字,它是在猜"这些字拼在一起最可能是什么意思"。如果一个字一个字地看,“机器学习"它要分四次猜——“机”、“器”、“学”、“习”,每个字单独猜容易猜错。但如果把"机器学习"作为一个整体Token来看,它就能直接认出这是一个完整的概念。
Token的本质就是:AI认为"这些字经常一起出现,把它们打包成一个整体来处理效率最高”。
举个具体的例子: “今天天气真好” → AI会这样切Token:[“今天”, “天气”, “真好”] 而不是:[“今”, “天”, “天”, “气”, “真”, “好”]
因为"今天"经常一起出现,“天气"也是,“真好"也是。AI把它们当作"老朋友"来识别,而不是一个个生字来拼。
再打个比方: 你看一部电影,肯定不会一帧一帧地看对吧?你会一个场景一个场景地看。Token对AI来说,就相当于"场景”——把连续的画面打包成一个有意义的单元。
不同语言,Token的切法也不一样:
- 中文:一般是2-4个字一个Token,比如"人工智能"可能是一个Token,“的”、“了"这种单字也是一个
- 英文:单词基本就是一个Token,“ChatGPT"这种合成词可能拆成"Chat”+“GPT"两个
- 代码:常见的关键词如"function”、“return"各算一个,变量名可能被拆成几段
简单记:
1个汉字 ≈ 1-2个Token
1个英文单词 ≈ 1个Token
一段话 ≈ Token的数量 ≈ 字数的一半到三分之二
二、Token怎么收费?
你每次用AI,其实都在消耗Token——就像打电话按分钟计费一样。
收费分两部分:
输入Token(你问的话) + 输出Token(AI回答的话) = 总共消耗的Token
各家模型的单价不一样:
| 模型 | 输入($/百万Token) | 输出($/百万Token) | 特点 |
|---|---|---|---|
| GPT-4o | $2.5 | $10 | 综合最强 |
| Claude 3.5 Sonnet | $3 | $15 | 编码最优 |
| DeepSeek V3 | $0.27 | $1.1 | 极致低价 |
| 通义千问 | ¥2 | ¥6 | 国内首选 |
三、日常场景算笔账
场景1:简单聊天(问一个问题)
你问:“什么是机器学习?” AI答了一段200字左右的解释
输入:约10个Token × 输出:约200个Token
用GPT-4o:不到1分钱
场景2:写一封邮件
你提需求:“帮我写一封催款邮件,语气礼貌但坚定” AI生成一封200字邮件
输入:约30个Token × 输出:约200个Token
用GPT-4o:约1分钱
场景3:让AI读一本200页的书并总结
你把整本书的内容粘贴进去 输入:约10万个Token(200页书) 输出:约500个Token(总结)
用GPT-4o:输入$2.5 + 输出$0.005 = 约$2.5(18元人民币)
场景4:让AI写一篇5000字的深度报告
你给了一些资料和提纲 输入:约3000个Token(资料+提纲) 输出:约5000个Token(报告正文)
用GPT-4o:输入$0.0075 + 输出$0.05 = 约$0.058(4毛钱)
场景5:和AI Agent聊天,让它帮你完成一个任务
你告诉Agent:“帮我查一下最近的天气,然后在日历上创建一个提醒”
Agent会怎么做?——它不会一次回答完,而是:
- 理解你的需求(消耗Token)→ 返回"好的,我来查天气”
- 调用天气API查数据 → 把结果拿回来继续对话(消耗Token)
- 告诉你天气结果,然后说"要创建日历提醒吗?”
- 你回复"好的” → Agent继续处理(消耗Token)
- 创建日历提醒成功 → 返回最终结果
关键点:Agent每做一个工具调用,就相当于一次新的请求。
整个流程下来消耗约 2000-5000个Token
用GPT-4o:约5-12分钱
一次任务不贵,但如果每小时用10次,一天下来也要几十块。
场景6:为什么AI Agent比普通聊天贵很多?
因为Agent背后是这样的:
- 普通聊天:你问一句 → AI答一句 = 1次请求
- Agent模式:你发一个任务 → AI自己规划 → 调用工具1 → 看结果 → 调用工具2 → 看结果 → 输出最终答案
一个Agent任务 = 3-10次普通聊天的Token消耗
再加上Agent每次调用工具都会把之前的对话历史带上(为了让AI记住上下文),历史越长,每次消耗的Token就越多。这就好比你打电话聊了10分钟,每分钟都在计费,越往后每分钟越贵——因为你要把前面10分钟的话重复说一遍给AI听。
四、为什么有时候感觉特别贵?
- 上传长文档:一本200页的书可能就10万个Token,一下就烧掉几块钱
- 长对话不换窗口:同一个对话框聊了100条消息,每次都会把前面99条带上,后期每次请求都在消耗几千个Token
- 让AI写长文章:生成5000字输出,输出Token自然就高
- Agent多次工具调用:每调一次工具就多一轮对话,Token翻倍
- 同时多个Agent协作:Agent A和Agent B互相商量,每个步骤都在消耗Token,一个复杂任务可能消耗上万Token
五、那到底该怎么选模型?
日常用便宜模型,关键任务用好模型:
| 场景 | 推荐模型 | 原因 |
|---|---|---|
| 日常聊天、写文案、改代码 | DeepSeek或通义千问 | 便宜够用 |
| 重要工作、深度分析、复杂推理 | GPT-4o或Claude | 贵但质量高 |
| 大量文档处理 | 先用便宜模型过一遍 | 关键部分用好模型精读 |
| Agent任务 | 核心推理用好模型 | 工具调用用便宜模型 |
省钱小技巧:
- 长对话记得开新窗口(清空历史)
- 上传文档前先想好:真的需要全文喂给AI吗?
- Agent任务设置最大步骤限制,防止无限循环
- 混合使用:让便宜模型做80%的工作,好模型只负责最后的把关
一句话总结:Token就是AI看文本的"基本单位",按量计费。它把常见词组打包成一个Token来提升效率。日常用便宜模型,关键任务用好模型,Agent任务要注意别让它无限循环,钱就花在刀刃上了。