智东西
编译 | Glu
(相关资料图)
编辑 | 李水青
智东西6月27日消息,昨天下午,腾讯云在北京举办了一场面向AI大模型的高性能网络沟通会,在现场首次完整披露了其自研的星脉高性能计算网络。据称,星脉网络具备3.2Tbps业界最高互联带宽,能提升40%的GPU利用率,节省30%~60%的模型训练成本,还让AI大模型通信性能提升10倍。
同时,基于腾讯云新一代算力集群HCC,星脉网络可支持10万卡的超大计算规模。
AI新时代,大模型成为AI领域最火热的话题,各大科技公司纷纷入局,腾讯公司也不例外,继6月19日公布其行业大模型研发进展后,腾讯云副总裁王亚晨、腾讯云数据中心网络总监李翔于今日与智东西等媒体官宣了“星脉网络”实现全新升级,并分享了腾讯云网络研究的发展历程。
王亚晨称:“星脉网络是为大模型而生。它所提供的大带宽、高利用率以及零丢包的高性能网络服务,将助力算力瓶颈的突破,进一步释放AI潜能,全面提升企业大模型的训练效率,在云上加速大模型技术的迭代升级和落地应用。”
演讲嘉宾:腾讯云副总裁王亚晨
演讲嘉宾:腾讯云数据中心网络总监李翔
一、AI大模型3大网络需求:大带宽、高利用率、无损网络
目前,AI大模型的训练参数已飙升至万亿级别,如此庞大的训练任务无法由单个服务器完成,而需要大量GPU服务器组成算力集群,相互协作完成任务。
这些服务器通过机间网络相连接,不断交换数据。因此,高性能网络具有至关重要的地位,它有利于让算力集群更加快速、准确地完成大规模的训练任务。
大集群不等于大算力,相反,GPU集群规模的扩大还会引发额外的通信开销。因为传统网络架构下,数据传输时会通过多层协议栈,需要反复停下来检查、分拣、打包,导致通信效率低下。
也就是说,网络层级越多,致GPU集群通信性能将越低。现在爆火的生成式AI大模型需要运用千亿、万亿参数规模进行训练,这个训练过程中通信占比最大可达50%,而传统低速网络的带宽无法支撑。
在这个问题的解决上,业界通常会引入RDMA技术(GPU之间直接通信),这是一种高性能、低延迟的网络通信技术,能够允许计算节点之间直接进行数据传输,减少中间环节。
但光靠RDMA技术还远远不够,传统网络协议也将制约GPU集群的运行效率。传统网络协议也很容易导致网络拥塞、高延时和丢包,而仅0.1%的网络丢包就可能导致50%的算力损失,最终造成算力资源的严重浪费。
王亚晨幽默地将传统网络协议喻为“交通管理系统”:“这让所有人都在一条大马路上行走,自然会导致交通堵塞。”
二、3.2Tbps带宽,支持10万卡集群组网
基于以上问题,腾讯云在交换机、通信协议、通信库以及运营系统等软硬件方面进行升级,推出了自研的大模型专属高性能网络“星脉”。
“带宽”决定了能够同时传输的数据,“拓扑”是节点设备间的连接方式,决定了组网规模的大小。在这两项硬指标上,腾讯云称星脉皆达到了业界最高水平。
在硬件方面,星脉网络自研白盒交换机,这是一种软硬件解耦的开放网络设备,采用四层解耦体系,包括接入、转发、路由、管控系统;腾讯云还自研了网络操作系统,包括网络OS与网管平台,构建了互联底座,实现自动化部署和配置。
在软件方面,腾讯云自研的TiTa网络协议,能够实时监测并调整网络拥塞,TiTa网络协议能够提升40%的带宽负载,还能提供低延时无损网络,实现高负载下的0丢包,使集群通信效率达90%以上。
王亚晨将其与传统网络协议对比,称:“这是让有不同需求的人走不同的路,就不会导致堵塞了。”
此外,腾讯云还为星脉网络设计了高性能集合通信库TCCL,融入定制化解决方案,使系统实现了微秒级感知网络质量。结合动态调度机制合理分配通信通道,可以避免因网络问题导致的训练中断等问题,让通信时延降低40%。
王亚晨将其比喻为“导航系统”,优化后的集合通信就像有了导航一样,可以快速找到最优路径。
为确保星脉网络的高可用,腾讯云自研端到端全栈网络运营系统。它可以让大模型训练系统的整体部署时间从19天缩减至4.5天,保证基础配置100%准确;通过端网立体化监控与智能定位系统,它可以进行离线故障诊断、在线故障实时告警,让整体故障的排查时间由天级降低至分钟级;此外,它具有秒级的故障自愈能力,端侧会主动发起路径选择,能够极速恢复网络故障。
三、3代演进,17年耕耘,网络硬软件全自研
根据腾讯云官方数据,目前,腾讯云在全球26个地理区域运营70个可用区,同时在70多个国家和地区部署了超过2800个CDN加速节点,全网带宽资源储备超过200T。
而在星脉网络技术升级的背后,是腾讯数据中心网络历经3代技术演进、17年耕耘的成果。
第一代是互联网驱动时期。数据中心网络流量主要由用户访问数据中心服务器的南北向流量构成,网络架构以接入、汇聚、出口为主。这一阶段主要使用了商用网络设备,搭建标准化数据中心网络,支撑QQ在线人数增长超过1亿,服务器规模增长超10万。
第二代是云服务驱动时期。随着大数据和云计算的兴起,服务器之间的东西向流量逐渐增多,云租户对网络产生了虚拟化和隔离的要求。数据中心网络架构逐渐演变为同时承载南北向和东西向流量的云网络架构,腾讯云构建了全自研网络设备与管理系统,打造超大规模数据中心网络,服务器规模近200万台。
第三代是大规模算力驱动时期。随着AI大模型的出现,腾讯云在国内率先推出高性能计算网络,采用东西向、南北向流量的分离架构。构建了独立的超大带宽、符合AI训练流量特征的网络架构,并配合自研软硬件设施,实现整套系统的自主可控,满足超强算力对网络性能的新需求。
日前,腾讯云发布的新一代HCC高性能计算集群,正是基于星脉高性能网络打造,可以实现3.2T超高互联带宽,算力性能较前代提升3倍,为AI大模型训练构筑可靠的高性能网络底座。
结语:面向AI大模型,腾讯星脉网络打助攻
参数达到千亿、万亿级别的AI大模型尤其看重网络性能,它需要大带宽、高利用率、无损的网络来帮助它高效地完成训练任务。以此为契机,腾讯云基于过往17年的网络布局经验与技术成果,研发了助攻AI大模型的星脉网络。星脉网络具备3.2Tbps带宽,可支持10万卡集群组网,能让AI大模型通信性提升10倍。
自OpenAI于去年推出ChatGPT后,各方势力纷纷入局AI大模型,千模大战一触即发。腾讯公司上周了公布其行业大模型的研究进度,腾讯云不“卷”参数,而聚焦到具体产业端,关注AI大模型的落地。此外,他们积极构建高性能网络以助攻AI大模型。此次沟通会中,王亚晨还透露腾讯云正在积极探索下一代高性能网络,致力于构建更强算力的计算集群。
关键词:
-
助攻AI大模型,腾讯云星脉高性能计算网络首次完整披露-全球热资讯
智东西编译|Glu编辑|李水青智东西6月27日消息,昨天下午,腾讯云在北京
-
暖心!南京公交驾驶员帮扶轮椅老人上下车-焦点消息
扬子晚报网6月27日讯(通讯员薛阳松记者笪越)6月25日下午,南京公交浦
-
京东方将于7月1日起对MLED产品价格进行调整
App6月27日消息,京东方晶芯科技的一份价格通知函显示:近几个月来,由
-
焦点关注:松炀资源(603863.SH):减持数量过半 股东铜陵高新累计减持142.95万股
格隆汇6月27日丨松炀资源(603863)(603863 SH)公布,公司股东铜陵高新于
-
湖南怀化首发太平船务铁海联运专列 直达马来西亚
n6月27日,陆海新通道·太平船务“怀化—北部湾港”铁海联运专列,从
-
环球快消息!反三角函数计算器怎么按手机 反三角函数计算器怎么按
1、先按shift或2ndf键,再按你想要算的三角函数对应的键如,算sin的反
-
、、、……
、、、……这些字,你认识吗?生活中,我们一般把使用频率较低、不太常
-
2023LPL夏季赛LNG遭到iG横扫赛后LNG群访一览 LEC六月二十六日赛果一览-每日简讯
在本场比赛结束之后LNG也是全体成员接受了媒体的群访,下面就给大家带
-
护肤品行业现状分析 高端护肤正持续引领美妆品类的增长
近几年,在护肤领域,一些海外品牌也在尝试利用3D打印技术设计个性化的
-
微信文件传输助手是真人?官方回应 假的,已禁止类似微信名
微信文件传输助手是真人?官方回应假的,已禁止类似微信名
-
阴有雷雨或阵雨,局部有冰雹!烟台发布雷电黄色预警信号-速看料
记者周宣刚记者从烟台市气象台获悉,6月27日9时20分,市气象台发布雷电
-
天天滚动:地产产业链股拉升 中天服务、新城控股等涨停 东方雨虹等走高
地产板块27日盘中强势拉升,截至发稿,中南建设、天地源、中迪投资、中
-
世界观察:山东 | 今起三天有强对流天气 省气象台发布雷电黄色预警
6月27日,记者从山东省气象台了解到,受高空槽影响,今天3时45分左右,
-
曾承芳(关于曾承芳介绍)_世界热门
来为大家解答以上的问题。曾承芳,承芳介绍这个很多人还不知道,现在让
-
武汉市举行毒品公开销毁活动
荆楚网(湖北日报网)讯(通讯员崔钧洋张斌)今年6月26日是第36个“国
-
唐河县开展“6·26”国际禁毒日宣传活动 当前热闻
为进一步提高广大群众识毒防毒拒毒禁毒意识,更好引导公众树牢和践行“
-
世界最新:群众身边无小事:龙文嘉苑小区供水问题已解决
中原网讯(记者李萌) 近日,郑东新区管委会在受理市长热线案件时,市
-
全球速递!三达膜老总千金高考710分,厦门豪宅小区给自己贴金,传有业主扬言要涨百万
“高考状元”让A股上市公司三达膜出圈,也带火了厦门的一个豪宅小区。
-
SMM分析:氧化铝行业知识科普系列八:国内五大集团内部氧化铝供需情况简析_全球速讯
6月19日,氧化铝正式期货上市。SMM铝研究团队正式推出《氧化铝行业知识
-
新梦诛大变化?神兽增加技能格子,115灵兽小分队现身 快看点
《梦幻新诛仙》2周年造梦狂欢盛典,呈现了一场炸裂的视觉盛宴,惊叹之