第一,
模型的训练,用最简单的比喻,是在整理一个超级大的快递墙(神经网络)。
数据(快递)是通过算法,用来调整墙面上的每一个柜子(Transformer Block)的参数(权重什么的)。
模型不是存储了全人类的知识所以能回答你的问题。而是模型通过这些数据和训练,形成了一个注意力神经网络,这个神经网络掌握了数据背后的某些规律。
快递墙训练完成的时候,所有快递,都被扔掉了。
第二,
而模型的推理,是一个确定的,调整完成的快递墙。加载到显存,并且用一定的浮点数运算,通过输入,得到输出(这个取出的快递,不会来自于训练数据,是快递墙编的新东西)的过程。
第三,
而模型的蒸馏,指的是一个在某个方面表现不错的快递墙,通过输出他生成的训练数据,在训练一个新的快递墙的过程中,教会他自己能力的过程。
比如我之前的截图,文心一言应该教过 gemini 中文。。。是的,美国的模型公司,一样蒸馏,包括谷歌和 Open AI 。
第四,
所以重点来了。。。真正侵犯版权,窃取数据的,是 Open AI 。。。
因为 GPT 横空出世之前,蒸馏肯定不太好用,没有人能教他。所以他只能全网爬数据。而这些数据,很可能有版权法保护。但是其实我当年也觉得没什么,因为这些数据其实也没有存储在模型内。(训练快递墙的快递,在训练完成后,都被取出来扔掉了)
而模型之间能力的教学,就更没办法窃取数据了。。。还是那句话,模型他并不存储数据(快递墙里面,没有训练时的任何快递)。。。A 模型通过数据,传授了 B 模型能力。而这些用于教授能力的数据,是 A 模型编的。。。
而能力的传授,目前,没有版权法能保护。。。虽然也有两年了,但是对于快乐教育出来的国会老爷们,还是太新了,他们未必搞懂了。。。
最后,
理解了这些技术原理,你能明白传播所谓 deepseek 通过蒸馏窃取 Open AI 数据的人,是什么水平了吧?
模型的训练,用最简单的比喻,是在整理一个超级大的快递墙(神经网络)。
数据(快递)是通过算法,用来调整墙面上的每一个柜子(Transformer Block)的参数(权重什么的)。
模型不是存储了全人类的知识所以能回答你的问题。而是模型通过这些数据和训练,形成了一个注意力神经网络,这个神经网络掌握了数据背后的某些规律。
快递墙训练完成的时候,所有快递,都被扔掉了。
第二,
而模型的推理,是一个确定的,调整完成的快递墙。加载到显存,并且用一定的浮点数运算,通过输入,得到输出(这个取出的快递,不会来自于训练数据,是快递墙编的新东西)的过程。
第三,
而模型的蒸馏,指的是一个在某个方面表现不错的快递墙,通过输出他生成的训练数据,在训练一个新的快递墙的过程中,教会他自己能力的过程。
比如我之前的截图,文心一言应该教过 gemini 中文。。。是的,美国的模型公司,一样蒸馏,包括谷歌和 Open AI 。
第四,
所以重点来了。。。真正侵犯版权,窃取数据的,是 Open AI 。。。
因为 GPT 横空出世之前,蒸馏肯定不太好用,没有人能教他。所以他只能全网爬数据。而这些数据,很可能有版权法保护。但是其实我当年也觉得没什么,因为这些数据其实也没有存储在模型内。(训练快递墙的快递,在训练完成后,都被取出来扔掉了)
而模型之间能力的教学,就更没办法窃取数据了。。。还是那句话,模型他并不存储数据(快递墙里面,没有训练时的任何快递)。。。A 模型通过数据,传授了 B 模型能力。而这些用于教授能力的数据,是 A 模型编的。。。
而能力的传授,目前,没有版权法能保护。。。虽然也有两年了,但是对于快乐教育出来的国会老爷们,还是太新了,他们未必搞懂了。。。
最后,
理解了这些技术原理,你能明白传播所谓 deepseek 通过蒸馏窃取 Open AI 数据的人,是什么水平了吧?