因业务需要可能会去 AutoDL 租用服务器用于模型训练,故测试了一下其平台上消费级显卡(原版2080Ti 11G)多卡互联时的性能表现。
将结果放在这里作为参考。
省流:没有NVLink,虽然运行在PCIe 3.0x16交换机上,且两个CPU NUMA都接入了PCIe switch,但由于驱动原因,P2P通信不可用,导致多卡互联性能较差。
以下为 DeepSeek-R1-0528 的总结
一、测试环境概览
-
硬件配置:
- GPU:NVIDIA GeForce RTX 2080 Ti × 2(各 11GB 显存)
- 拓扑结构:PCIe Gen3 ×16 互联(
nvidia-smi topo显示PIX模式) - NUMA 亲和性:双卡共享同一 NUMA 节点(Node 1)
-
软件环境:
- CUDA 版本:12.4
- 驱动版本:550.90.07
- 测试工具:
cuda-samples、nccl-tests
2025/6/5大约 14 分钟