你有没有想过一个问题:当你让AI写一篇文章的时候,它到底按什么来算钱?
不是按字数,不是按时间,而是按一个叫 Token 的东西。
打开任何一个AI平台的API定价页面,你看到的价格都是"每百万Token XX美元"。但你翻遍整页说明,可能都找不到一个简单的问题——
Token到底是什么?
一、最直观的理解:Token就是AI的"文字积木"
先放下所有技术概念,用一个最直接的类比。
你小时候玩过积木吧?一堆积木可以拼成房子、车子、城堡。
Token就是AI世界里的"积木"。计算机不认识"字",它只认识数字。所以AI需要一种方式,把你看得懂的"中文"翻译成它算得懂的"数字"。
这个翻译过程分两步:
你说的话 → 拆成Token(积木块) → 每个Token编上号(变成数字)
比如你说"今天天气真不错",AI可能把它拆成这样:
| 原始文本 | Token拆分 | 编号 |
|---|---|---|
| 今天天气真不错 | “今天” + “天气” + “真” + “不错” | [4678, 8921, 321, 15023] |
你看,一句话变成了4个Token,每个Token对应一个数字ID。
Token不是字,也不是词,它是AI自定义的一种"中间单位"——可能是一个完整的词,可能是半个词,也可能是单个字符,取决于分词器怎么切。
二、一个Token到底多长?
这是所有人最关心的问题。直接给答案:
| 语言 | 1个Token ≈ | 例子 |
|---|---|---|
| 中文 | 1.5-2个汉字 | “今天天气” ≈ 2个Token |
| 英文 | 0.7-0.8个单词 | “Hello world” ≈ 2个Token |
| 代码 | 1-2个字符 | “if(x>0)” ≈ 5-6个Token |
所以换算关系很好记:
1000个Token ≈ 750个汉字 ≈ 一条长微博
100万个Token ≈ 75万个汉字 ≈ 三本《三体》
但这不是固定的。 不同模型的分词器(Tokenizer)不一样,同样的文本在不同模型里Token数也不一样。
DeepSeek专门针对中文做了优化——同样一篇文章,它切出来的Token数可能比GPT-4o少20%。这就直接意味着便宜20%。
三、为什么AI需要Token这个中间单位?
你可能会问:为什么不用更直观的"字数"或"字符数"来计费?
原因很直接——AI"看"文本的方式跟你不一样。
你不是一个字一个字地读"今天天气真不错"这句话的。你是一眼扫过去,整句话意思就明白了。
但AI不是这样。它必须把你的话:
- 先切成最小的"可处理单元"(Token)
- 把每个Token转成向量(一串数字)
- 再在这些数字上做矩阵运算
Token就是AI能"理解"的最小单位。 小于一个Token的信息(比如一个汉字的一半),AI处理不了;大于一个Token的信息(比如整句话),又太大了需要拆分。
所以Token就是AI在"精细度"和"效率"之间找到的最佳平衡点。
Token和上下文窗口的关系
还有一个很多人忽略的点:Token的大小直接决定了模型的上下文窗口。
上下文窗口指的是AI一次能"记住"多少信息。这个单位也是按Token算的,不是按字数。
拿GPT-4o来说,它有128K Token的上下文窗口。如果你写的是中文,128K ≈ 19万汉字。如果你写的是英文,128K ≈ 9万英文单词。
所以下次你看到"128K上下文窗口",心里换算一下:
- 中文:相当于一本《三体》
- 英文:相当于半本《哈利·波特与魔法石》
但前提是你的文本能被高效地切成Token。 如果你的文本里中英混杂、包含大量特殊符号,Token数会暴涨,同样的内容塞进窗口里的"实际容量"就变少了。
四、一个你每天都在用的例子
你在ChatGPT网页版打字,问:“用简单的话解释一下什么是机器学习?”
这句话大概有20个字 ≈ 13个Token。
然后AI回答你一段800字的文字,大概需要530个Token作为输出。
这次对话的总Token消耗:13(输入) + 530(输出)= 543个Token。
如果用GPT-4o的API价格来算:
- 输入:$2.50/百万Token → 13个Token ≈ $0.00003
- 输出:$10.00/百万Token → 530个Token ≈ $0.0053
- 总价:约0.5美分
一次日常问答不到1分钱人民币。但一天问100次,一个月30天,就是——54000个Token × 100次 × 30天 ≈ 1.6亿Token,约$150。
一次不贵,累积起来就恐怖了。
五、实操:怎么知道一个文本有多少Token?
有些网站提供了在线的Token计数工具,但最快的方法是自己估算:
中文文本的Token数 ≈ 汉字数 ÷ 1.5
英文文本的Token数 ≈ 单词数 × 1.3
或者更简单的方法:让AI自己帮你算。
在ChatGPT里输入:“帮我数一下这句话有多少个Token”,它就能告诉你答案。虽然AI数Token不是100%精确,但误差通常在5%以内,足够用了。
还有一个更精确的参考:英文里1000个Token ≈ 750个单词。中文里1000个Token ≈ 1500个汉字。
六、最常见的误解
误解1:“Token就是字” 不对。Token可能是字、词、或字的一部分。中文里"你好"通常是一个Token,“你"和"好"分开可能是两个Token。
误解2:“所有模型的Token都是一样的” 不对。GPT-4o、Claude、DeepSeek各自有自己的分词器。同一个"今天天气真不错”,在不同模型里可能被切成3个Token或5个Token。
误解3:“Token数和字数成正比” 不对。特殊字符、标点符号、空格都会消耗Token。把一段中文翻译成英文,Token数可能翻倍。
误解4:“网页版不按Token收费,所以Token跟我没关系” 也不对。网页版虽然不直接收Token费,但OpenAI内部也是按Token算成本的。你的月费$20能支持多少对话,本质上就是20美元能买多少Token。重度用户聊得多,实际上是在"补贴"轻度用户。
一句话总结
Token就是AI世界的"最小货币单位"——它既是AI理解文本的基本单元,也是你使用AI的计价单位。就像你去加油站加的"升"、去超市买的"斤",Token就是AI领域的那个基础度量衡。
理解了Token,你就理解了AI的"胃"有多大(上下文窗口),也理解了你的"钱"花在了哪里(Token计费)。
下一篇我们来具体算一笔账:各家模型的Token价格到底差多少?DeepSeek比GPT便宜多少倍?
📖 本文是MST「30天AI科普专栏」第6篇 / 共25篇 🔖 分类:日常使用 关注MST,每天一个AI小知识,把大模型讲明白。