首页   

//@黑羽Neet: 不会有翻译英文这个中间步骤的,是直接中文转-20240727125530

宝玉xp  · AI  · 1 月前

2024-07-27 12:55

//@黑羽Neet: 不会有翻译英文这个中间步骤的,是直接中文转token。无论中文还是英文还是日语对LLM来说都没区别都是一堆tensor罢了,从来就没有要求说必须先转为英文作为中间语言,更别说转换必然有信息丢失//@在读三体:回复@黑羽Neet:现在的中文token是中翻英后按英文处理token然后结果再英翻中,还是基于中文的语义处理,因为汉字是表义文字,在token的选取划分方面是不是有其特色与优势?
Andrej 为了解释 Word 和 Token 的区别,写了个小程序,把 Token 用 Emoji 表示,好帮助你直观的理解 LLM (大语言模型)看到的世界和我们看到的世界是不一样的。

简单来说一个单词会由一到多个Tokens组成,比如“strawberry”是一个单词,但是可能是“str”、“aw”和“berry” 3 个Token,而 Token 存储的时候也不是字母,所以如果让 LLM 计算出 strawberry 里面有多少个 r,或者对其反转,那它是很困难的。

推文:x.com/karpathy/status/1816637781659254908
Google Colab:
网页链接

OpenAI 的网站上有一个网页可以看分词器(Tokenizer)的运行结果(图3):platform.openai.com/tokenizer
© 2024 精读
删除内容请联系邮箱 2879853325@qq.com