Andrej 为了解释 Word 和 Token 的区别,写了个小程序,把 Token 用 Emoji 表示,好帮助你直观的理解 LLM (大语言模型)看到的世界和我们看到的世界是不一样的。
简单来说一个单词会由一到多个Tokens组成,比如“strawberry”是一个单词,但是可能是“str”、“aw”和“berry” 3 个Token,而 Token 存储的时候也不是字母,所以如果让 LLM 计算出 strawberry 里面有多少个 r,或者对其反转,那它是很困难的。
推文:x.com/karpathy/status/1816637781659254908
Google Colab:
网页链接
OpenAI 的网站上有一个网页可以看分词器(Tokenizer)的运行结果(图3):platform.openai.com/tokenizer
简单来说一个单词会由一到多个Tokens组成,比如“strawberry”是一个单词,但是可能是“str”、“aw”和“berry” 3 个Token,而 Token 存储的时候也不是字母,所以如果让 LLM 计算出 strawberry 里面有多少个 r,或者对其反转,那它是很困难的。
推文:x.com/karpathy/status/1816637781659254908
Google Colab:
网页链接
OpenAI 的网站上有一个网页可以看分词器(Tokenizer)的运行结果(图3):platform.openai.com/tokenizer