接上文,原先计划采购华为昇腾做适配,但是调研了一圈发现采购排产要一个月,模型适配时间无法预估,所以两条腿走路,继续用 4090
浪潮给了个配置报价
浪潮 NF5280M6
cpu intel xeon 4316 * 2
内存 32g ecc* 8
硬盘 1.92T SATA SSD * 1 + 4T SATA2
GPU rtx 4090 * 2
电源 2700W2
报价 83000
有兄弟知道这个 4316 ,能不能发挥 4090 的最大性能
硬盘不大,因为我们做视频分析,处理完就删掉了,所以对存储要求不高

当然能

8 卡的 4090 现在一般都是搭配 Intel® Xeon® 铂金 8352V ,2.1GHz/36 核/72 线程/195W也见过搭配 Intel 8462Y+ 4th Generation Intel® Xeon®ScalableProcessors 2.8Ghz/32 核/64 线程/300w 这个的

我们用的两张卡,单台要控制在 10W 以内

看你们的网络吃不吃 cpu 了。。。我们有个模型吃 cpu ,4090 使用率一直上不去。。。

autodl 有台 10w 出头的 4 卡机器,我当时想买,被公司采购卡住了。。。

为啥采购卡住了

整机全新的?有点贵

公司采购不按我们提供的线索找供应商,只会找库里的供应商问配置,找几家供应商询价以后与初始预算相差较大。。。流程就打回了。。。

再吃 cpu ,应该也比我们原先的那个 6133 要强,那个 U 也不知道怎么买的,导致 4090 利用率很低

全新的机器

我主要担心这个 4316 的 U 拖后腿

4090 显存够吗?视频处理需要的显存比图片高多了

需要双卡吗,4090 没 nvlink 挺伤的

这俩 4090 能跑 70B 的 chat 模型吗

我公司用的 5218R + 3 x A5000 ,感觉这个 CPU 太弱了,比 4316 差 0.25 左右,平时开 DDP 训练 num_workers 开到最大,训练速度上去之后 cpu 占用在 80% 左右,显卡没到瓶颈 cpu 已经不能再并行了。之前用 8380 有时候都感觉不够用,感觉最起码也要 8275 吧,并且 8275 性价比这么高 aws 之前很多都是用 8275

这台机器不做训练,只做推理分析,chat 模型暂时不考虑。Platinum 3 代有些贵。上面说的显存够不够的问题,目前一天处理 600-700 小时的视频。客户希望处理 7000 小时,这个到时候堆机器吧

#9 6133 是当年阿里还是腾讯的定制 U ,量大。二手很便宜。如果你们是走采购的,买 6133 大概率是被坑了,这个 U 是给云服务器用的

OP 如果对配置有疑问可以多找几个厂家报一下,目前硬件市场属于买方市场,dell H3C 安擎 宝德 硅基 那么一大堆呢,每家都出一份,你就知道市场行情了。云计算行业相关从业,目前项目上面用到的都是 G5 6348(2.6GHz/28 核/42MB/235W)CPU 模块(CTO&BTO)

纯属把钱花到刀把上了,双卡 4090 要什么机架式服务器,还配那么大内存,居然要要 83000 ,你随便买个工作站放在脚边都能用双卡 4090可以参考一下这个报价,10w 就有 4 卡 4090 了

www.autodl.com/machine/list