Token到底是什么？——AI数"字"算钱的

你有没有想过一个问题：当你让AI写一篇文章的时候，它到底按什么来算钱？

不是按字数，不是按时间，而是按一个叫 Token 的东西。

打开任何一个AI平台的API定价页面，你看到的价格都是"每百万Token XX美元"。但你翻遍整页说明，可能都找不到一个简单的问题——

Token到底是什么？

一、最直观的理解：Token就是AI的"文字积木"

先放下所有技术概念，用一个最直接的类比。

你小时候玩过积木吧？一堆积木可以拼成房子、车子、城堡。

Token就是AI世界里的"积木"。计算机不认识"字"，它只认识数字。所以AI需要一种方式，把你看得懂的"中文"翻译成它算得懂的"数字"。

这个翻译过程分两步：

你说的话 → 拆成Token（积木块） → 每个Token编上号（变成数字）

比如你说"今天天气真不错"，AI可能把它拆成这样：

原始文本	Token拆分	编号
今天天气真不错	“今天” + “天气” + “真” + “不错”	[4678, 8921, 321, 15023]

你看，一句话变成了4个Token，每个Token对应一个数字ID。

Token不是字，也不是词，它是AI自定义的一种"中间单位"——可能是一个完整的词，可能是半个词，也可能是单个字符，取决于分词器怎么切。

二、一个Token到底多长？

这是所有人最关心的问题。直接给答案：

语言	1个Token ≈	例子
中文	1.5-2个汉字	“今天天气” ≈ 2个Token
英文	0.7-0.8个单词	“Hello world” ≈ 2个Token
代码	1-2个字符	“if(x>0)” ≈ 5-6个Token

所以换算关系很好记：

1000个Token ≈ 750个汉字 ≈ 一条长微博

100万个Token ≈ 75万个汉字 ≈ 三本《三体》

但这不是固定的。 不同模型的分词器（Tokenizer）不一样，同样的文本在不同模型里Token数也不一样。

DeepSeek专门针对中文做了优化——同样一篇文章，它切出来的Token数可能比GPT-4o少20%。这就直接意味着便宜20%。

三、为什么AI需要Token这个中间单位？

你可能会问：为什么不用更直观的"字数"或"字符数"来计费？

原因很直接——AI"看"文本的方式跟你不一样。

你不是一个字一个字地读"今天天气真不错"这句话的。你是一眼扫过去，整句话意思就明白了。

但AI不是这样。它必须把你的话：

先切成最小的"可处理单元"（Token）
把每个Token转成向量（一串数字）
再在这些数字上做矩阵运算

Token就是AI能"理解"的最小单位。 小于一个Token的信息（比如一个汉字的一半），AI处理不了；大于一个Token的信息（比如整句话），又太大了需要拆分。

所以Token就是AI在"精细度"和"效率"之间找到的最佳平衡点。

Token和上下文窗口的关系

还有一个很多人忽略的点：Token的大小直接决定了模型的上下文窗口。

上下文窗口指的是AI一次能"记住"多少信息。这个单位也是按Token算的，不是按字数。

拿GPT-4o来说，它有128K Token的上下文窗口。如果你写的是中文，128K ≈ 19万汉字。如果你写的是英文，128K ≈ 9万英文单词。

所以下次你看到"128K上下文窗口"，心里换算一下：

中文：相当于一本《三体》
英文：相当于半本《哈利·波特与魔法石》

但前提是你的文本能被高效地切成Token。 如果你的文本里中英混杂、包含大量特殊符号，Token数会暴涨，同样的内容塞进窗口里的"实际容量"就变少了。

四、一个你每天都在用的例子

你在ChatGPT网页版打字，问：“用简单的话解释一下什么是机器学习？”

这句话大概有20个字 ≈ 13个Token。

然后AI回答你一段800字的文字，大概需要530个Token作为输出。

这次对话的总Token消耗：13（输入） + 530（输出）= 543个Token。

如果用GPT-4o的API价格来算：

输入：$2.50/百万Token → 13个Token ≈ $0.00003
输出：$10.00/百万Token → 530个Token ≈ $0.0053
总价：约0.5美分

一次日常问答不到1分钱人民币。但一天问100次，一个月30天，就是——54000个Token × 100次 × 30天 ≈ 1.6亿Token，约$150。

一次不贵，累积起来就恐怖了。

五、实操：怎么知道一个文本有多少Token？

有些网站提供了在线的Token计数工具，但最快的方法是自己估算：

中文文本的Token数 ≈ 汉字数 ÷ 1.5
英文文本的Token数 ≈ 单词数 × 1.3

或者更简单的方法：让AI自己帮你算。

在ChatGPT里输入：“帮我数一下这句话有多少个Token”，它就能告诉你答案。虽然AI数Token不是100%精确，但误差通常在5%以内，足够用了。

还有一个更精确的参考：英文里1000个Token ≈ 750个单词。中文里1000个Token ≈ 1500个汉字。

六、最常见的误解

误解1：“Token就是字” 不对。Token可能是字、词、或字的一部分。中文里"你好"通常是一个Token，“你"和"好"分开可能是两个Token。

误解2：“所有模型的Token都是一样的” 不对。GPT-4o、Claude、DeepSeek各自有自己的分词器。同一个"今天天气真不错”，在不同模型里可能被切成3个Token或5个Token。

误解3：“Token数和字数成正比” 不对。特殊字符、标点符号、空格都会消耗Token。把一段中文翻译成英文，Token数可能翻倍。

误解4：“网页版不按Token收费，所以Token跟我没关系” 也不对。网页版虽然不直接收Token费，但OpenAI内部也是按Token算成本的。你的月费$20能支持多少对话，本质上就是20美元能买多少Token。重度用户聊得多，实际上是在"补贴"轻度用户。

一句话总结

Token就是AI世界的"最小货币单位"——它既是AI理解文本的基本单元，也是你使用AI的计价单位。就像你去加油站加的"升"、去超市买的"斤"，Token就是AI领域的那个基础度量衡。

理解了Token，你就理解了AI的"胃"有多大（上下文窗口），也理解了你的"钱"花在了哪里（Token计费）。

下一篇我们来具体算一笔账：各家模型的Token价格到底差多少？DeepSeek比GPT便宜多少倍？

📖 本文是MST「30天AI科普专栏」第6篇 / 共25篇 🔖 分类：日常使用 关注MST，每天一个AI小知识，把大模型讲明白。