//@黑羽Neet: 不会有翻译英文这个中间步骤的，是直接中文转-20240727125530（微信文章未删减版）

//@黑羽Neet: 不会有翻译英文这个中间步骤的，是直接中文转token。无论中文还是英文还是日语对LLM来说都没区别都是一堆tensor罢了，从来就没有要求说必须先转为英文作为中间语言，更别说转换必然有信息丢失//@在读三体:回复@黑羽Neet:现在的中文token是中翻英后按英文处理token然后结果再英翻中，还是基于中文的语义处理，因为汉字是表义文字，在token的选取划分方面是不是有其特色与优势？

Andrej 为了解释 Word 和 Token 的区别，写了个小程序，把 Token 用 Emoji 表示，好帮助你直观的理解 LLM （大语言模型）看到的世界和我们看到的世界是不一样的。

简单来说一个单词会由一到多个Tokens组成，比如“strawberry”是一个单词，但是可能是“str”、“aw”和“berry” 3 个Token，而 Token 存储的时候也不是字母，所以如果让 LLM 计算出 strawberry 里面有多少个 r，或者对其反转，那它是很困难的。

推文：x.com/karpathy/status/1816637781659254908
Google Colab：

网页链接

OpenAI 的网站上有一个网页可以看分词器（Tokenizer）的运行结果（图3）：platform.openai.com/tokenizer