近期,淘宝和闲鱼上很多厂家在出售至少 2.2 万的 4090 48G 显卡,这是一款“全新”、非官方规格的显卡。淘宝厂家甚至给出了基础款和升级款两种选择,其中基础款用的是拆机进口颗粒(19000 频率)和非定制全新 PCB 板,耐久度略低,升级版则用的是全新进口颗粒(21000 频率)和全新定制 PCB 板,耐久度高。不过厂家保证这两款都在前期性能稳定,并质保三年。
B 站上也早就有 UP 主对魔改版 4090 48G 显卡进行了初步测评,称这款显卡重量较大,显卡满载功率可达 450 瓦,原本运行 20 多分钟的工作流在该款显卡上仅需一分半。“在赛博绘图视频制作领域堪称顶级选择。满血的顶级算力搭配专业卡级别的显存,是非常不错的组合。如果后续改装水冷,将更具优势。”根据其他网友使用,4090 48G 显卡还可以支持 FP8,在游戏方面则与常规卡没有差别。
这款显卡也已经出走海外。来自加拿大的小哥在平台上晒出了自己在 eBay 上买的 RTX 4090 48G,让网友给出测试建议。eBay 官网显示,4090 48G 的售价要 3 万人民币起步。
![image]()
现在,市面上还传出了 4090 96GB 版本已经被搓出来的消息,有人贴出了闲鱼上的预购消息和配置图,据说价格在 3700 美元左右(2.6 万人民币)。
![image]()
不过,Slamtec 创始人兼 CTO Tony Huang 对此在推特上表示,“这应该不可能,4090 的上限就是 384bit/16bit*16Gbit GDDR6 = 48G”。
要得到 4090 48G 显卡需要几步?网传有三个步骤:一、找一块 3090 的板子,挖掉核心;二、找一块 4090 的板子,挖掉核心,然后把这个核心焊到 3090 的板子上;三、再焊接更多对应显存到板子上,实现 48G。
上面是很诙谐的说法,但在闲鱼上确实能找到很多 4090 无核心、无显存的显卡板,被戏称为“4090 显卡手办”,价格在 100 元上下不等。
实际上,4090 魔改 48G 过程中还有一个关键的步骤,即显卡 bios。bios 是存储在显卡 ROM 芯片中的固件程序,可以初始化显卡硬件参数,协调 GPU/ 显存 / 供电模块协同工作。
知乎答主“宅叔”表示,“其实就是传言流出来那版 vbios,没有那版 vbios,就没有后续的 48G。vbios 有数字签名会和芯片内的安全芯片作相互校验,因此绕不过去,而在 2023 年流出来了一个工具,可以把不同品牌的 vbios(有数字签名版) 互刷,所以拿到 48G 的 vbios 就等于有了 48G 的 4090,无非是如何搬板,甚至有能力可以重新设计一张 PCB 来扩张。换句话说,如果未来有更大显存容量的 bios 流出,原则上也可以做更大显存的卡。”
有网友分析,3090 芯片发售时,显存颗粒最大 1GB,24GB 显存需要 24 颗,PCB 板正反面都有。4090 芯片发售时,显存颗粒达到 2GB,24GB 显存只需要 12 颗,PCB 板只有一面有焊盘。突然某一天,从英伟达总部流出 4090 48GB 改版显卡 bios,正好发现 4090 针脚定义和 3090 一样,可以焊在 3090 PCB 上。这样,4090 芯片 +3090 PCB+24 颗 2GB 显存 + 流出魔改显卡 bios=4090 48GB 显卡。据悉,大概一张卡的工本费要 5500 元左右。
有网友对比 A100 80G 的生成速度实际就比 4090 48G 快 20%,但是价格却贵了 6 倍多。目前已经有公司推出主打性价比的 4090 48G 推理 GPU 方案,帮助进行 DeepSeek 部署。另一方面,这也推动了 4090 显卡价格居高不下。
![image]()
个人用户使用 4090 48G 跑 DeepSeek 的配置截图
4090 48G 不是最近才出现的,目前还没有用户曝出大问题。不过对于魔改卡,部分人还是比较谨慎,“魔改卡的工艺还是赶不上原厂卡。一般焊锡不是无铅高温的,常出现脱焊、爆锡等问题。第二,保修也是个问题,后期还管不管保修都不知道。个人玩家还是算了。”
看起来只是单纯扩大了显卡显存,但对于实际应用来说可能意义很大。
根据 AI 开发人员 Piyush Kashya 的计算,FP16 精度的 7B 参数模型至少需要 16.8GB 的 GPU 内存。类似地,haotian-liu 在 GitHub 上回答开发者提问时表示,通常 7B 参数的模型可以使用内存小于 24GB 的 GPU 运行,而 13B 参数模型大约需要 32 GB 内存。
显存大小限制了人们使用更大参数的模型,因此很多人用小模型或量化版本。但对于多模态模型,如 Flux 等的运行上,显存制约让很多人感到使用不便。
深度学习的训练过程中,GPU 显存溢出也是经常出现的问题。为此,人们通常使用减少训练批次大小、数据并行等方式来减少 GPU 内存的使用。GPU 内存优化也一直是厂商在做的事情。
另一方面,英伟达当前在企业级卡和消费级卡之间设置了明显的技术鸿沟。
比如,在计算能力方面,RTX 4090 属于 Ada Lovelace 架构,16384 个 CUDA 核心,由 128 个 SM 组成。H100 则为 Hopper 架构,16896 个 CUDA 核心和 528 个 4.0Tensor 核心,阉割了对图像渲染至关重要的光追核心(RT Core),多了 FP64 的处理单元。
而在多卡互联方面,4090 不支持 GPU 间直接通信,必须通过 CPU 中转,而 H100 可以借助 Nvlink 等进行卡间高速通信,支持 RDMA、GDS(GPU 存储直接访问)。值得注意是的,RTX 30 系列中只有 RTX 3090 支持 NVLink。
![image]()
鉴于 DeepSeek 的热度,NVIDIA 发布了 DeepSeek R1 的量化版本 DeepSeek R1 FP4。借助对 Blackwell 架构的 TensorRT DeepSeek 优化(包括具备最先进生产精度的 FP4 性能),该模型实现了推理速度提升 25 倍、每 token 成本降低 20 倍的效果。
![image]()
详情可查看:https://huggingface.co/nvidia/DeepSeek-R1-FP4
大家对 4090 48G 的热情,也源于对英伟达“挤牙膏”发布的 50 系显卡的失望情绪。有 UP 主测评对比后表示,“4090 48G 秒杀 5090”。
“50 系是十年来最失败的一代显卡,这点是板上钉钉的,因为其存在重大缺陷,并且是前代已有的缺陷,并没有修复;而由于暴力拉规模导致故障风险扩大,大部分 5090 将在三年左右坏掉,故障为烧供电击穿核心。”有网友评价称。
与前代 4090 相比,5090 定价几乎翻了一番,而整个 RTX 50 系列产品的价格也都居高不下,此后还被炒出天价。消费者普遍认为这样的价格难以接受,尤其是考虑到性能的提升并不足以支撑售价翻倍。在质疑声中,黄仁勋直言不讳地表示,RTX 5090 的目标用户群体是那些追求顶级性能体验的发烧友,对他们而言,价格并不是首要考虑的因素。这一发言也引起了更大的不满。
而自发货以来,50 系被曝出的问题可太多了。截至目前,RTX 5090 已知问题包括:12 针电源接口熔化、黑屏、丢失 ROP(光栅单元)、电容烧毁、可靠性差等,还有用户遇到了错版问题。
其中,比较严重的就是 ROP 丢失问题。外媒 TechpowerUP 报道称,他们在 RTX 5090 评测样品上发现了 ROP 缺失问题,这源于 ZOTAC RTX 5090 样品测试中的运行速度要比其他样品慢。事实证明,该卡的 ROPS 仅为 168,而 ROPS 的官方规格数量为 176,后来发现几乎所有 AIB 都有这个问题。
5090 上缺少 ROP 单元导致游戏性能损失 4-5%。根据目前尚无法完全确认该问题是制造缺陷还是 bios 问题,但前者似乎更有可能,还有人猜测是老黄的管理出现了问题。而根据网友“MEGAsizeGPU”的说法,问题不在 bios 上,而在核心的 GB202 芯片上。
![image]()
后来,英伟达公关总监 Ben Berraondo 紧急发声:这属于极个别芯片体质问题,对 AI 运算毫无影响,游戏性能平均损失仅 4%。但外媒表示,所谓缺少 1 个 ROP 为文字游戏,实际缺失量高达 8 个,英伟达将每个 ROP 单元的像素处理能力换算成虚拟单位,营造参数虚高的假象。
英伟达的 RTX 50 系列显卡是该公司最棘手的发布之一,这个论断并不过分。此次发布在多个环节出现重大失误:初期上市阶段,GeForce RTX 5090 在多家零售商的库存量持续是个位数,这种刻意控量供应策略导致实际供给不足,而需求激增主要源于黄牛抢购和高端硬件发烧友的追捧。值得注意的是,库存短缺也并非是英伟达 GPU 芯片产能不足导致的,推测问题可能出在封装测试环节、物流调度系统或渠道分配策略等深层供应链环节上。
外媒表示,50 系列显卡在市场上缺货的原因是英伟达正在进行“饥饿营销”。GPU 库存完全充足,但英伟达控制供应不释放库存,从而制造出短缺的假象。实际上,到四月或五月,GPU 将会大量释放。
参考链接:
https://www.zhihu.com/question/11803840385
https://www.bilibili.com/video/BV1RQfpYkEcg/?spm_id_from=333.337.search-card.all.click&vd_source=c7202342f6677650b47938178c8bfb3a
https://www.reddit.com/r/LocalLLaMA/comments/1iwhfl5/comment/medyq2f/
https://github.com/haotian-liu/LLaVA/issues/191
https://wccftech.com/nvidia-is-suppressing-inventory-levels-for-high-end-rtx-50-series-gpus/