聚变创新,助力AI产业筑牢数智发展根基

作者:超级管理员 来源:成都超聚变服务器代理商 日期:2023-11-16 10:08 点击量:127


聚变创新,助力AI产业筑牢数智发展根基


10月31日,在2023云栖大会“人工智能”技术主题论坛上,超聚变AI服务器产品总经理朱勇作《聚变创新,助力AI产业筑牢数智发展根基》主题演讲,对超聚变AI开发平台,进行重点介绍。


1.png


近年来,ChatGPT引爆AI大模型,各行业AI算力需求暴增。大模型训练需要集群支持,而AI集群需要大量高性能AI服务器、高性能存储和智能无损网络设备以及大量硬件基础设施投资支持。

在使用AI集群的过程中,需要有强大的作业调度能力,跨节点调度能力,集群故障实时监测和及时诊断能力,以及断点续训和故障节点自动隔离等诸多能力,以达成稳定训练,确保集群的高效运行。

超聚变推出的AI开发平台,是一站式 AI 模型开发训练部署平台,具备开放、高效、可靠、易用四大特性,打通AI开发全流程,为用户提供友好易用的AI开发环境,保护客户投资。


多算力资源统一调度、统一管理,降低客户运维难度


支持GPU、NPU等多算力,通过节点标签定义各类资源池,各类AI任务可灵活选择最匹配的资源池。


丰富的北向标准化接口,易与客户自有系统集成对接


提供REST、SNMP等标准北向接口,方便客户自有系统灵活按需调用。


增强作业调度,资源利用率提升50%以上

支持Gang、Binpack、Proportion、Priority等高阶调度策略,适用不同场景。

GPU服务器资源跨集群弹性调度,实现资源共享


GPU节点可以通过裸金属服务在多个租户资源池中动态管理,结合调度感知,GPU节点可以在不同集群中弹性分配。

GPU/NPU多实例和虚拟化技术,有效降低客户TCO


GPU多实例技术,单卡物理切分成多卡;GPU/NPU虚拟化技术,单卡逻辑切分成多卡,1张GPU卡可以当100张GPU卡用。

支持低至30秒的Checkpoint时长


支持快速保存训练过程中的数据,训练时长最多可缩短6%。


强大的作业卡死检测功能,节省训练资源成本


自动识别作业是否卡死,告警提醒用户及时释放资源。

GPU故障诊断准确率达96%


覆盖GPU所有关键信息,多种展示方式,通过BMC和多种诊断工具,支持集群的GPU批量故障诊断和监控。

断点续训,自动隔离故障节点,秒级恢复任务


训练过程中检测到节点故障、计算资源耗尽、程序崩溃等故障后自动从最近的Checkpoint点恢复训练,训练任务秒级恢复。


一站式 AI 模型开发训练部署,打通深度学习全链路

集成数据管理、算法开发、训练管理、模型管理、推理服务、镜像管理等多个功能模块。

预置大语言模型和深度学习框架镜像,助用户快速开发AI应用


预置LLaMA、BLOOM、GLM 等常见预训练模型和TensorFlow、PyTorch、Caffe、MindSpore、飞桨等多个深度学习框架镜像。

集成模型迁移工具,助力客户业务快速上线


实现模型迁移和可视化性能分析。

展望未来,超聚变将持续深耕智算基础平台,基于超聚变AI开发平台和专家团队,提供标准化、低门槛AI专业服务,持续释放智算动能,让算力更好地服务您。



成都超聚变服务器代理商 —— 成都强川科技有限公司,一直以客户需求为导向,不断提供最新最全的产品、性价比更高的超聚变xfusion服务器解决方案。了解更多产品信息及超聚变最新动态,可拨打客服专线:028-85024766、18215624006或登录公司官方网站www.scxfzdl.com,与全球超聚变用户共同见证卓越。