AMD Ryzen AI Max+ 395四机并联：大语言模型集群推理深度测试

发布时间：2025-08-16 20:10 浏览量：41

本文是介绍使用四块Framework主板构建AI推理集群的完整过程，并对其在大语言模型推理任务中的性能表现进行了系统性评估。该集群基于AMD Ryzen AI Max+ 395处理器，采用mini ITX规格设计，可部署在10英寸标准机架中。

Jeff Geerling大佬还开发了名为Beowulf AI Cluster的自动化部署工具集，该工具集基于Ansible平台，可实现在beowulf集群架构上快速部署多种开源AI集群工具，支持CPU、GPU以及混合推理配置。

因为我只关心Max+ 395的性能测试部分（尤其是并行测试部分），所以本篇文章有删改，想看原文的请看最后的Jeff Geerling大佬博客

本次评估的硬件配置采用了Framework提供的完整解决方案。每个计算节点包含Framework主板、专用电源模块、Noctua CPU散热器以及1TB WD NVMe固态硬盘。

Framework主板在设计上更接近于单板计算机（SBC）架构，而非传统的插槽式CPU和内存桌面主板设计。该主板采用焊接式APU设计，集成了CPU、NPU（神经处理单元）和iGPU（集成图形处理器）以及系统内存。根据Framework的技术说明，采用焊接式设计而非可更换内存模块（如CAMM标准）的主要原因是为了确保内存时序的精确控制，从而在AI工作负载中实现最优性能表现。

系统组装完成后，进行了全面的性能评估测试。完整的测试数据已在GitHub相关仓库中详细记录，包括Framework Desktop的sbc-reviews完整数据、top500 HPL基准测试结果以及Ollama和LLM基准测试结果。

在环境特性方面，该集群系统表现出优异的静音性能。配备Noctua CPU散热套件的情况下，系统噪音控制在46dBa以下。主板预装的散热器采用相变热界面材料技术，确保从APU裸芯到散热器的高效热传导。散热风扇支持智能调速，在系统空闲时可完全停转。

在功耗特性方面，单个计算节点的功耗表现如下：睡眠状态约2W，空闲状态约11W，满负荷运行时约150W。系统在高负载初期会短暂进入更高的turbo boost频率状态，但在持续满负荷基准测试中会稳定在145-155W功耗范围内。所有功耗测量均在交流电源端进行，测试环境运行Fedora 42操作系统（部分测试使用Fedora Rawhide开发版本）。

网络连接性能测试显示，虽然系统配备Thunderbolt/USB4端口，但实际测试中仅能达到10 Gbps的传输速率。内置以太网控制器支持5 Gbps传输速率，在实际测试中能够稳定达到标称速度。未来通过驱动程序优化或Linux系统调整，有望将Thunderbolt节点间连接速度提升至15-20 Gbps。

在通用计算性能方面，单个计算节点表现出色。运行pts/build-Linux-kernel基准测试，单节点能够在不到一分钟的时间内完成Linux内核编译任务。

四节点集群配置下，即使未进行针对Ryzen AI Max+芯片特性的专门优化，运行top500-benchmark测试仍能实现超过1 TFLOP的FP64浮点计算性能。

在能效比方面，虽然CPU效率表现良好，但与Apple M系列芯片仍存在显著差距。在FP64计算能效比方面，其表现与Raspberry Pi 5相当。

这是我比较关心的问题，因为毕竟我们买这个都是为了做本地的LLM推理，之所以翻译这篇文章的主要原因是大佬已经调通了并行推理，也就是说我们可以用几台主机横向扩展，这样可以加载更大的模型。

测试过程中发现，部分硬件功能（如内置NPU）仍无法正常工作。虽然AMD在评测期间发布了一些NPU测试示例，但由于时间限制，未能完成完整的验证测试。基于这一现状，建议用户在选购时应基于当前已验证可用的功能进行评估，而非基于未来承诺或规格说明中的潜在功能。

在软件兼容性方面，初期在Fedora 42系统上配置ROCm与Ollama的集成遇到了一些技术障碍。最终通过升级至Fedora Rawhide版本解决了ROCm的兼容性问题，使得Ollama能够正常运行，但其性能表现仍不如直接使用llama.cpp。

单节点配置下，系统能够很好地支持CPU或iGPU推理模式，可选择Vulkan或ROCm作为底层加速框架。性能测试结果显示：

对于集成显卡而言（在完全未使用NPU的情况下），测试获得了令人满意的性能数据。在能效比方面，虽然未能达到Apple芯片的水平，但在AMD消费级芯片中表现最佳。

集群测试阶段为避免网络配置问题的干扰，选择使用内置网络控制器，并配备了NICGIGA 5 Gbps 8端口交换机。这是目前市场上为数不多能够在单一设备中提供多个5 Gbps RJ45端口的网络交换解决方案。

使用Beowulf AI Cluster项目框架，对Exo、llama.cpp RPC和dllama等多种集群工具进行了系统性测试。测试结果显示，Exo项目似乎缺乏持续维护，在Strix Halo支持方面存在长期未解决的问题，最终放弃了该工具的深入测试。llama.cpp RPC在处理小型模型时表现良好，但在大型模型上会采用轮询调度模式，而在处理超大型模型（如DeepSeek R1 Q4_K_M）时会出现段错误异常（相关问题已在GitHub issue中报告）。distributed-llama在支持的模型范围内（包括Llama 3.1 405B）能够在集群环境中稳定运行，但Vulkan支持存在不稳定性，推理过程可能出现异常（如单词无限循环重复），且目前支持的模型种类较为有限。

综合测试结果表明，目前尚无完美的开源AI集群解决方案。

llama.cpp的RPC模式被认为是最具发展潜力的方案。在超大型LLM的轮询调度问题演示中，通过nvtop工具监控GPU使用情况，可以观察到主节点依次将计算任务分配给各个从节点的过程：

理想情况下，llama.cpp应能实现类似HPL在FP64数学计算中的并行化工作负载分配，但这涉及复杂的技术实现挑战。正是由于这些技术难题，RPC功能目前仍被标记为实验性质。

虽然技术社区经常讨论通过组合多台迷你PC构建AI集群的可行性，但实际实施过程远比理论分析复杂。除了网络带宽相对于内存访问速度的巨大劣势外，现有AI集群工具的成熟度仍有待提升。

从经济角度分析，不包括DeskPi机架、托盘、网络交换机和布线成本，本次测试的集群配置总成本约为8,004美元。

与其他大语言模型推理解决方案的性能成本比较如下：

此前测试的AmpereOne服务器仅使用CPU即可达到4 tokens/s的推理速度，该服务器的采购成本约为12,000美元。

配备512GB内存的M3 Ultra Mac Studio售价接近10,000美元，但其性能表现显著优于测试集群，可达到16 tokens/s的推理速度。

需要说明的是，上述性能比较中Framework集群的0.7 t/s数据基于Llama 3.1 405B模型测试，而其他系统的数据基于DeepSeek R1 671B模型（均采用Q4量化），因此这一比较并非完全等价。

在DeepSeek R1 Q2_K_M模型的集群测试中，使用Vulkan加速框架获得了以下性能数据：

针对ChatGPT新发布的开源模型，在单节点配置下的测试结果如下：

gpt-oss-20b模型测试结果：

gpt-oss-120b模型测试结果：

在集群模式下运行相同模型时，tg128推理性能下降至24 tokens/s

测试结果表明，采用当前最先进的开源AI集群工具进行多机推理时，其性能表现始终不如单机大内存配置。在构建AI推理系统时，应优先考虑垂直扩展策略。集群化部署虽然理论上具有吸引力，但在AI应用场景中面临额外的技术挑战。

虽然开源AI集群工具未来可能达到与其他高性能计算工具相当的成熟度，但在当前技术水平下，要获得更优的集群性能，仍需要专用硬件、高速互连以及大量的系统优化工作。

AI集群技术虽然具有技术价值，但距离主流应用仍有相当距离。Deepseek的671B能抛出26t/s的速度如果自用的话是可以达到忍受的最低限度的。但是我个人感觉395最大问题还是价格，rdna3的魔改rdna3.5，对于游戏向肯定没人买，作为AI产品，内存给的带宽又太少了，而且抠搜的只有96G的显存。这导致大模型推理还是需要并行，但是目前来看AMD的生态还是太弱了，并行智能靠RPC,并且Jeff 大佬的测试中还会出现错误一点都不稳定，这也导致395算是一个鸡肋。不过归根到底还是价格问题，现在价格是13999也就是1万4，其实有这时间折腾RPC并行，我不如买8个V100，虽然硬件麻烦一些，但是只要硬件没毛病，软件直接上手就用了。所以等等党们不要着急，如果这玩意能降到10999，没准那时候并行的方案就稳定了，那就是真香，哈。

标签：模型 amd 集群推理四机

AMD Ryzen AI Max+ 395四机并联：大语言模型集群推理深度测试

相似文章

资讯分类

热门资讯

热门产品