如何扩展你的模型(How to Scale Your Model
,A Systems View of LLMs on TPUs)
训练 LLM 往往感觉像炼金术,但理解和优化模型的性能却并非如此。本书旨在揭开在 TPU 上扩展语言模型的科学之谜:
TPU 如何工作以及它们如何相互通信、LLM 如何在真实硬件上运行以及如何在训练和推理过程中并行化模型,以便它们在大规模下高效运行。如果您曾经想过“训练这个 LLM 的成本应该有多高”或“我自己需要多少内存来为这个模型提供服务”或“什么是 AllGather”,希望这对您有所帮助。
访问:jax-ml.github.io/scaling-book/
#ai创造营##deepseek##ai#
,A Systems View of LLMs on TPUs)
训练 LLM 往往感觉像炼金术,但理解和优化模型的性能却并非如此。本书旨在揭开在 TPU 上扩展语言模型的科学之谜:
TPU 如何工作以及它们如何相互通信、LLM 如何在真实硬件上运行以及如何在训练和推理过程中并行化模型,以便它们在大规模下高效运行。如果您曾经想过“训练这个 LLM 的成本应该有多高”或“我自己需要多少内存来为这个模型提供服务”或“什么是 AllGather”,希望这对您有所帮助。
访问:jax-ml.github.io/scaling-book/
#ai创造营##deepseek##ai#