Dell PowerEdge T560 塔式服务器专为本地 IT、虚拟化、数据库管理、AI 推理、私有云等而构建。它由第四代 Intel Xeon 可扩展 CPU 提供支持,支持 24 个存储驱动器。
机架服务器并不适合所有企业,尤其是在没有数据中心的情况下。在不存在传统服务器机房概念的边缘尤其如此。这就是 PowerEdge T560 塔式服务器的用武之地,它具有适合办公室(低噪音)的设计。较大的机箱还允许进行一些机架式服务器无法实现的独特配置,例如在前背板上混合使用 2.5 英寸托架和 3.5 英寸托架。
T560 支持两个 32 核第四代 Intel Xeon 可扩展处理器(“Sapphire Rapids”)、1TB 内存(16 个 RDIMM 插槽)以及多种可能的驱动器组合。从这个意义上来说,它并不是一个小塔,相当于机架中的 4.5U,并支持八个冷却风扇。
该塔还具有大量扩展功能,具有六个 PCIe 插槽,其中两个是 x16 Gen5。它可容纳两个双宽 300 瓦 GPU 或六个单插槽 75 瓦 GPU。
Dell PowerEdge T560 塔式服务器构建和设计
塔式服务器很少很小,PowerEdge T560 当然也不是,尺寸为 18.3 x 7.9 x 26.7 英寸(HWD)。这款 4.5U 塔式设备从各个角度都令人印象深刻,首先是其热插拔驱动器托架。我们的托架有八个 2.5 英寸和八个 3.5 英寸托架,右侧有两个支持 M.2 RAID 的冗余 BOSS 驱动器。
正面端口包括 1 个 USB 2.0、1 个 USB 3.0 和 1 个 iDRAC Direct (Micro-AB USB) 端口。
3.5 英寸驱动器托架的右侧是 NVMe M.2 启动驱动器。
该塔式设备的背面有 1 个 USB 2.0、1 个 USB 3.0、1 个可选串行端口、用于 iDRAC 的 1GbE、1 个 VGA、2 个以太网端口和 OCP 插槽。另一个 USB 3.0 端口是可选的。
塔楼的侧门被拆除,以便进入内部;布局看起来很像一个侧翻的标准服务器。大部分内部都覆盖着巨大的气流引导装置。
八个热插拔风扇沿着中心线安装;挤压橙色标签可以让它们自由。
每个 Xeon CPU 都有一个巨大的塔式散热器,两侧有八个 DIMM 插槽。T560 支持高达 1TB 的总 RAM。
以下是驱动器托架后面的视图,包括 NVMe RAID 卡,此版本中还有第二个用于 HDD 的卡。
我们拥有配备五个 NVIDIA L4 GPU 的卓越配置,使其成为理想的推理平台。
夹在 GPU 之间的是另一个用于 OCP NIC 的小型气流护罩。
我们的审查单位具有以下配置:
2 个 Intel Xeon Gold 6448Y(每个 32 核/64 线程,225 瓦 TDP,2.1-4.1GHz)
8 个 1.6TB Solidigm P5520 SSD,带 PERC 12 RAID 卡
5 个 NVIDIA L4 GPU
8 个 64GB RDIMM
对于存储测试,我们在 JBOD 和 RAID 6 配置中利用连接到 PERC 12 RAID 卡的 SSD。这与使用本机 NVMe 不同,在本机 NVMe 中,每个 SSD 都有自己的 x4 连接到主板。
VDBench 工作负载分析
当谈到存储设备基准测试时,应用程序测试是最好的,综合测试排在第二位。虽然不能完美地代表实际工作负载,但综合测试可以通过可重复性因素帮助确定存储设备的基线,从而可以轻松地在竞争解决方案之间进行同类比较。这些工作负载提供了一系列测试配置文件,从“四个角”测试和常见数据库传输大小测试到来自不同 VDI 环境的跟踪捕获。
所有这些测试都利用通用的 vdBench 工作负载生成器,以及脚本引擎来自动化并捕获大型计算测试集群的结果。这使我们能够在各种存储设备(包括闪存阵列和单个存储设备)上重复相同的工作负载。我们对这些基准测试的测试过程会用数据填充整个驱动器表面,然后对相当于驱动器容量 25% 的驱动器部分进行分区,以模拟驱动器如何响应应用程序工作负载。这与完全熵测试不同,后者使用 100% 的驱动器并使它们进入稳定状态。因此,这些数字将反映更高的持续写入速度。
从4K随机读取开始,我们看到T560在RAID6中达到179万IOPS,在JBOD中达到486万IOPS。除了 JBOD 结果结束时我们看到了一个小峰值之外,延迟得到了很好的控制。
RAID6 阵列的随机写入 4K 出现急剧上升;它没有超过 415,000 IOPS。另一方面,JBOD 配置在出现轻微不稳定之前达到了 390 万 IOPS。不过,我们再次看到在峰值之前相对稳定的延迟。
接下来是顺序读取 64k;T560的RAID6阵列达到了8.2GB/s,而JBOD配置达到了近23GB/s。线条没有表现出不稳定。
在顺序写入 64k 测试中,我们看到 T560 的 RAID6 阵列再次出现峰值,大约为 4GB/s。JBOD 配置达到约 16.5GB/s,超过 14GB/s 时有些不稳定。
我们的混合70/30 8K测试显示线条相对平滑;RAID6阵列达到约67万IOPS,JBOD阵列达到193万IOPS。两种情况下的延迟均得到控制。
接下来的测试是我们的 SQL 工作负载。我们继续看到稳定的延迟,并且这里没有峰值。RAID6 阵列的峰值刚刚超过 400 万 IOPS,而 JBOD 配置则高达 1400 万 IOPS。
我们还运行了 Oracle SQL 工作负载测试,结果相似,这次 RAID6 阵列进一步超过 400 万 IOPS,JBOD 配置略高于 1400 万 IOPS。
为了进行比较,我们选择了之前测试过的 R760。这是CPU之间的比较。两者具有相同数量的核心,尽管 T560 内的 Xeon 6448Y CPU 与 R760 内的 Xeon 6430 CPU 相比在整体时钟速度上具有优势。
Cinebench R23 和 R24
Maxon 的 Cinebench R23 是一个 CPU 渲染基准测试,利用所有 CPU 核心和线程。我们对其进行了多核和单核测试。分数越高越好。
随着最近发布的 24 版本,它引入了新的评分系统和在多个 GPU 上运行的能力。
Blender 基准测试通过在 Blender 软件中渲染 3D 场景来衡量 CPU 或 GPU 的 3D 渲染性能。它提供了一个分数,可用于比较不同系统和组件的性能。这些数字以每分钟的样本数为单位。
Geekbench 是一个跨平台基准测试。我们使用 CPU 基准测试,它具有多个工作负载来模拟现实世界的任务和应用程序。
y-cruncher 是一个多线程且可扩展的程序,可以将 Pi 和其他数学常数计算到数万亿位。自 2009 年推出以来,它已成为超频玩家和硬件爱好者流行的基准测试和压力测试应用程序。在这里我们再次看到 PowerEdge R760 的 Xeon Gold 芯片具有轻微的性能优势。
GPUPI 3.3.3 是轻量级基准测试实用程序的一个版本,旨在通过 GPU 和 CPU 使用硬件加速来计算 π (pi) 到数十亿位小数。它利用 OpenCL 和 CUDA 的计算能力,其中包括中央处理单元和图形处理单元。我们在 5x L4 上运行 CUDA。
UL 的 Procyon AI 推理基准测试套件使用最先进的神经网络测试各种 AI 推理引擎的执行情况。我们仅在 CPU 上运行这些测试。下面的数字是平均推理时间;总分是最后一行。
Dell T560 塔式服务器上的 GROMACS CUDA
为了释放配备 5 个 NVIDIA L4 GPU 的 Dell T560 塔式服务器的全部潜力,我们源编译了 GROMACS,这是一款专门针对 CUDA 的分子动力学软件。此定制编译旨在利用 5 个 NVIDIA L4 GPU 的并行处理功能,这对于加速计算模拟至关重要。
该过程涉及使用 nvcc(NVIDIA 的 CUDA 编译器)以及适当优化标志的多次迭代,以确保二进制文件正确调整为服务器的架构。GROMACS 编译中包含 CUDA 支持,使软件能够直接与 GPU 硬件连接,从而大大缩短复杂模拟的计算时间。
测试:Gromacs 中的定制蛋白质相互作用
利用社区提供的来自我们多样化 Discord 的输入文件(其中包含为特定蛋白质相互作用研究定制的参数和结构),我们启动了分子动力学模拟。结果非常显着——系统的模拟速度达到了每天 170.268 纳秒。
仿真速度的意义
分子模拟的运行速度在各个行业中都至关重要。例如,在制药领域,快速模拟功能可以使研究人员快速迭代分子设计和相互作用,从而显着加速药物发现。
在材料科学中,它可以加速具有所需性能的新材料的开发。170.268 ns/天的速率意味着在较旧的服务器上需要花费近两周时间的模拟现在在配备普通 NVIDIA L4 的 Dell T560 上只需一天即可完成。这不仅提高了生产力,还开辟了实时数据分析和决策的新领域。
与目前正在 10 年前的硬件上运行类似模拟的实验室进行的互动形成了鲜明的对比。他们现有的设置需要 24 小时才能完成 Dell T560 只需几分钟即可实现的任务。这种比较不仅凸显了现代处理器的进步,还展示了当前硬件可以为科学研究带来的价值。
借助戴尔 T560 塔式服务器,研究人员可以在更短的时间内进行更多实验,从而改善对科学进步至关重要的假设和测试的迭代周期。这意味着曾经被认为对于常规探索来说过于资源密集的计算实验现在是可行的。
计算性能的人工智能应用
Dell T560 所展示的计算性能对研究领域具有广泛影响。这不仅与速度有关,还与现在可以解决的问题的复杂性和规模有关。借助这种计算能力,对整个生物系统、复杂化学反应甚至生态模型进行建模的大规模模拟变得更加可行。
随着人工智能和机器学习的出现,分子动力学模拟的高通量能够生成训练复杂模型所需的大量数据集。这些模型可以在预测生物学、新型材料和下一代计算化学方面带来突破。
结论
Dell PowerEdge T560 塔式机为一般服务器使用和高级或专业任务(包括 GPU、计算和数据科学)带来了卓越的灵活性。它在扩展和功率方面与机架服务器相匹配,并在某些方面超过了机架服务器,配备两个英特尔“Sapphire Rapids”至强可扩展处理器、1TB RAM、多种存储驱动器配置和多个 GPU 支持,但其塔式外形不需要一个数据中心。尽管根据工作负载的不同,其风扇显然并不安静,但其风扇足够安静,可以在办公环境中使用。
我们的测试涉及 PowerEdge T560 功能的所有领域;它在我们的存储和 CPU 测试中显示了可靠的数据,并通过我们的 5 个 NVIDIA L4 GPU 的特殊配置在 GPU 测试中展示了其实力。我们还赞赏这座塔的简单维修性。由于对最苛刻的人工智能工作负载的扩展性和适应性值得称赞,PowerEdge T560 塔式机获得了我们的强烈推荐和认可,成为“2023 年最佳”获奖者。
【公司名称】四川旭辉星创科技有限公司
【代理级别】成都戴尔服务器工作站总代理
【销售经理】李经理
【联系方式】座机:028-85596747 手机:13540160369
【公司地址】成都市人民南路4段 桐梓林 商鼎国际2号楼1单元1913
请用微信扫描二维码