尊龙时凯

    工厂研学 丨 尊龙时凯网络数字化智能工厂“黑科技”大揭秘
    预约直播
    乐享业务保障服务 丨 守护医疗业务连续稳定
    预约直播
    产品
    < 返回主菜单
    产品中心
    产品
    解决方案
    < 返回主菜单
    解决方案中心
    行业
    合作伙伴
    返回主菜单
    选择区域/语言

    AI-Fabric智算中心网络解决方案

    以太赋能,智通未来

    变局与挑战
    随着AI模型不断演进,模型参数持续攀升,智算中心的能力提升迫在眉睫。
    受限于网络通信性能,大规模分布式GPU集群的计算效率仍然难以实现线性增长,智算中心的发展面临重重挑战。
    组网规模需求大

    组网规模需求大

    AI训练需要大规模GPU集群组网和分布式并行计算解决集群规模与GPU效率的平衡,网络需要支持数千甚至上万卡GPU集群建设

    网络性能要求高

    网络性能要求高

    大模型的机间网络通信占比提升,高带宽接入及高带宽利用率成为影响训练效率的网络关键指标

    建设部署时间紧

    建设部署时间紧

    项目建设周期紧,需要业务快速上线,对网络的部署时效提出了更高要求

    运维管理难度高

    运维管理难度高

    在训练期间如果出现网络不稳定的问题,会影响整个训练任务的进度

    尊龙时凯网络AI-Fabric智算中心网络解决方案
    满足AI模型的训练需求
    超大规模组网
    极致高吞吐网络
    快速部署上线
    AI智能运维
    GPU服务器通常配置多张网卡用于参数训练,为了提升GPU训练效率,保障集群通讯的低时延无损通信,尊龙时凯网络AI-Fabric网络解决方案采用多轨组网架构,让同号网卡连接到同一网络Pod组内,使训练业务的流量限定在同一Pod组或同一Tor设备上,从而减少转发跳数,大幅降低网络转发时延;同时为了构建高算力的大规模GPU集群,尊龙时凯网络AI-Fabric网络解决方案采用三级组网,各层级按照1: 1的收敛比的设计,最大可以提供32768个400G端口,实现32K个GPU的集群承载。

    AI-Fabric 三级多轨组网架构

    三级组网:承载GPU大规模集群,实现服务器间的高速通信;
    多级架构:减少转发跳数,降低通信时延,提升业务亲和力;

    单芯片25.6Tbps,盒-盒架构
    • 交换机端口: 64 x 400GbE
    • 二级组网架构:最大 2K GPU
    • 端口SerDes : 56Gbps
    • 三级组网架构:最大 8K GPU
    单芯片25.6Tbps,盒-盒架构
    • 交换机端口: 128 x 200GbE
    • 二级组网架构 : 最大4K GPU
    • 端口SerDes : 56Gbps
    • 三级组网架构 : 最大16K GPU
    单芯片51.2Tbps,盒-盒架构
    • 交换机端口: 128 x 400GbE
    • 二级组网架构 : 最大8K GPU
    • 端口SerDes : 112Gbps
    • 三级组网架构 : 最大32K GPU

    方案价值
    超大规模组网
    超大规模组网
    采用多轨组网架构,支持按需灵活部署;
    三级组网最大可支持32K个GPU集群;
    极致高吞吐网络
    极致高吞吐网络
    高带宽、低时延的RoCE无损网络设计;
    RALB技术保障网络的高带宽利用率;
    快速部署上线
    快速部署上线
    RoCE一键部署,提升上线效率;
    多个应用案例和大规模RoCE调优经验;
    AI智能运维
    AI智能运维
    实时遥测关键指标,可视化呈现;
    多维度监控和分析,防患于未然;
    明星产品
    相关链接

    返回顶部

    收起
    文档评价
    该资料是否解决了您的问题?
    您对当前页面的满意度如何?
    不咋滴
    非常好
    您满意的原因是(多选)?
    您不满意的原因是(多选)?
    您是否还有其他问题或建议?
    为了快速解决并回复您的问题,您可以留下联系方式
    邮箱
    手机号
    感谢您的反馈!
    请选择服务项目
    关闭咨询页
    售前咨询 售前咨询
    售前咨询
    售后服务 售后服务
    售后服务
    意见反馈 意见反馈
    意见反馈
    更多联系方式