首页   

Grok3与Groq谁主沉浮?

冷眼局中人  · AI 科技自媒体  · 3 天前

主要观点总结

本文介绍了马斯克旗下xAi即将推出的grok3模型,该模型被称为全世界最聪明的大模型,具有惊人的硬件配置和预训练算力。同时,文章还介绍了另一家有趣的公司Groq,其自研的大模型和AI芯片引起业界关注。文章讨论了Groq的核心技术——语言处理单元(LPU)和其与Nvidia的GPU、SRAM的关系等,并指出Groq的闪电演示视频引发了广泛关注。最后,文章讨论了Groq和deepseek的合作可能性以及未来的行业变革。

关键观点总结

关键观点1: 马斯克旗下xAi推出的grok3模型即将面世,被誉为全世界最聪明的大模型。

grok3具有惊人的硬件配置和预训练算力,Colossus超算集群和10万块NVIDIA H100 GPU为其提供支持。

关键观点2: 另一家公司Groq引起关注,其自研的大模型和AI芯片Groq一夜爆火。

Groq的大模型能够每秒输出近500个token,碾压ChatGPT-3.5等现有模型。其核心技术是语言处理单元(LPU),运行速度快,但存在成本问题和正确率的问题。

关键观点3: Groq的AI芯片技术有望打破AI聊天机器人的瓶颈。

Groq的AI芯片——语言处理单元(LPU)的运行速度超越了Nvidia的GPUs。第三方测试报告显示,Groq的产出速度高达每秒247个标记,远超其他聊天机器人。

关键观点4: Groq的创始人兼CEO Jonathon Ross对AI芯片技术有深入了解。

他表示,通过LPUs,Groq成功绕过了GPUs和CPUs在计算密度和内存带宽上的限制,从而大大提升了大型语言模型(LLM)的运行速度。

关键观点5: Groq的LPU芯片和SRAM的关系被形象地比喻为“跑车与发动机”。

LPU需要SRAM来“飙速度”,SRAM的超快读写速度让LPU处理语言任务时更快、更省电。投资LPU产业链需关注SRAM供应商。


正文


马斯克最近在天天在吹,北京时间他旗下的xAi本周二中午将推出grok3,而这将是全世界最聪明的大模型,远超deepseek。

grok3硬件配置很惊人:Colossus超算集群,10万块NVIDIA H100 GPU。预训练算力是Grok 2的10倍。DogeDesigner说这将是"世界上最强大的AI"。简单说,这就是英伟达大力出奇迹的代表产物,所以周一所有英伟达链条的公司又在反弹。
图片

GROK3似乎有点东西

不过呢,有另外一家去年大火的有意思的公司,名字和grok很像叫做Groq。其实一开始马斯克想给自己ai起名叫groq,可惜被注册了,最后叫Grok,当时Groq的创始人还和他有过争执,认为马斯克蹭他热度。

不过现在好了,伴随着Grok3即将面世,Groq也在华尔街被反向带起了热度。2 月 11 日消息,AI 推理芯片初创公司 Groq 当地时间昨日宣布,沙特阿拉伯承诺向其投资 15 亿美元。

在9个月前,曾经有一个微博吹deepseek当时无人关注,结果8个月后石破惊天。而现在据说梁老板在忙一个更牛逼的东西,这个微博说deepseek如果用groq芯片,那英伟达就不复存在了。因此有人猜测,deepseek会不会未来和Groq合作加强起推理算力能力。

那这家Groq到底是个啥玩意呢?

去年2月,他家自研的大模型 Groq曾 一夜之间爆火,能够每秒输出近 500 个 token。如此神速的响应,背后全凭自研的 LPU。一觉醒来,每秒能输出 500 个 token 的 Groq 模型刷屏全网。堪称是当时世界上速度最快的 LLM!相比之下,ChatGPT-3.5每秒生成速度仅为40个token。

有网友当时将其与GPT-4、Gemini对标,看看它们完成一个简单代码调试问题所需的时间。Groq完全碾压两者,在输出速度上比Gemini快10倍,比GPT-4快18倍。(不过就答案质量来说,Gemini更好。)但最关键的是,任何人可以免费用!

现在Groq最大的问题一个是成本担忧,另外一个是正确率的因素,LPU有点像量子芯片的问题就是错误率偏高。

原阿里副总裁、Lepton 创始人贾扬清对比了 Groq 硬件和英伟达 H100 在运行 LLaMA 70b 模型时的成本。他发现,在同等吞吐量下,Groq 的硬件成本和能耗成本分别高达 H100 的 40 倍和 10 倍。例如,为了运行 LLaMA 70b 模型,可能需要数百张 Groq 卡,而使用英伟达 H100 则成本大幅降低。

华为的左鹏飞提出了不同的视角,他强调在讨论成本时应区分售卖价和成本价,并指出 Groq 卡的成本价可能远低于市场售价。他还提到Groq 卡未使用高成本的HBM,而是使用了成本较低的 SRAM,这可能影响成本效益

Smol AI 的创始人 Shawn Wang 从每 token 成本的角度出发,认为 Groq 在高批量处理的假设下,其成本与定价相匹配,并且可能比基于 H100 的成本更低,显示出 Groq 在成本效益上可能具有竞争力。

Groq近期发布的闪电般演示视频在网络上引发广泛关注,使得现有的ChatGPT、Gemini乃至Grok等聊天机器人相形见绌。Groq自豪地宣称提供“世界上最快的大型语言模型”,而第三方测试结果似乎为其背书。

在X平台上展示的一个演示视频中,Groq展现了一瞬之间产出数百个单词的事实性回答,同时引用源,令人叹为观止。另一演示中,创始人兼CEO Jonathon Ross更是让一个CNN主持人与远在另一端的AI聊天机器人进行了实时口语对话,展现了其技术的实时交互性。尽管其他聊天机器人已颇为不俗,但Groq的速度优势使其在实际应用中更胜一筹。

Groq的核心技术在于其创新的AI芯片——语言处理单元(LPUs),据称其运行速度超越了Nvidia的图形处理单元(GPUs)。Nvidia的GPUs长期以来被视为AI模型运行的行业标准,然而早期测试结果显示,LPUs的性能可能远超其上。Groq不仅是一个“推理引擎”,更是聊天机器人的速度提升利器,虽不替代却能大幅提升现有聊天机器人的运行效率。

据上月Artificial Analysis发布的第三方测试报告显示,Groq的产出速度高达每秒247个标记,远超微软的18个标记。这意味着若采用Groq的芯片,ChatGPT等聊天机器人的运行速度有望提升13倍以上,实现真正的速度革新。

若AI聊天机器人如deepseek、ChatGPT、Gemini和Grok能拥有更快的运行速度,它们在日常应用中的实用性将显著提升。目前这些模型在实时对话方面存在延迟,影响了用户体验。随着Groq的AI芯片技术——语言处理单元(LPUs)的崛起,这一瓶颈有望被打破。LPUs以其超越Nvidia图形处理单元(GPUs)的运行速度,为AI领域带来了革命性的变革。

Groq的创始人兼CEO Jonathon Ross,曾是谷歌AI芯片部门的共同创立者,深谙AI芯片技术的奥秘。他表示,通过LPUs,Groq成功绕过了GPUs和CPUs在计算密度和内存带宽上的限制,从而大大提升了大型语言模型(LLM)的运行速度。

最后我们让deepseek出面,用通俗的语言总结LPU芯片的要点:

LPU像专为语言处理设计的跑车,而SRAM则像是它的高速引擎,因此投资LPU产业链需关注SRAM供应商。

LPU芯片和SRAM的关系可以理解为“跑车与发动机”:LPU是专为语言处理设计的“跑车”,而SRAM则是它的“高速发动机”。具体来说:

1. LPU需要SRAM来“飙速度”  
   LPU芯片专为AI推理设计(比如让ChatGPT快速回答你的问题),而SRAM是一种超快但较贵的内存。传统GPU用HBM内存(类似“大仓库”,容量大但取货慢),而LPU改用SRAM(类似“快递柜”,容量小但取货极快)。SRAM的读写速度比HBM快约20倍,这让LPU处理语言任务时更快、更省电。

2. 为什么LPU概念股多是SRAM公司?   

 - SRAM是LPU的核心零件:就像电动车依赖电池,LPU的性能直接受SRAM影响。生产SRAM的公司(如北京君正、兆易创新)是LPU产业链的“上游供应商”。  

 - 技术门槛高:SRAM技术成熟且难被替代,这些公司有先发优势。例如,北京君正全球市占率高,恒烁股份研发存算一体芯片。  

 - 市场需求爆发:随着LPU在AI推理中普及,SRAM需求激增。比如运行一个70B参数的大模型,需要数百个LPU芯片并联,每个芯片都依赖SRAM。

简单总结:LPU靠SRAM实现速度飞跃,所以投资LPU产业链,SRAM厂商是“卖铲子的人。

在推理时代到来后,无论你的训练算力有多强,未来的主战场必然是在推理算力上,而在这个领域即使Grok3未来也可以利用Groq的LPU芯片进行提速。而deepseek和Groq的氢弹王炸组合到底啥时候到来,能不能彻底干掉英伟达,我们拭目以待。

大家可以发现,自从deepseek横空出世以来,各家都在疯狂的展示杀手锏,因为最后争夺王者的收官时刻可能已经来临。所以未来可能将是一天一个行业重大变化,让大家目不暇接。而前一天得意忘形的玩意可能后一天就落后了,这可能也是老巴不太喜欢科技股的原因吧。

就让我们明天先坐看Grok3的表现,然后再期待Groq带来的行业氢弹吧。

推荐文章
© 2024 精读
删除内容请联系邮箱 2879853325@qq.com