服务东数西算 算网操作系统让算力高效利用
【资料图】
科技日报记者 张晔 实习生 赵雨佳
记者从8月23日在南京举行的第七届未来网络发展大会上获悉,为支撑东数西算国家战略布局,充分发挥不同区域的协同效应,我国自主研制的东数西算算网操作系统,正式发布跨广域调度试验成果。未来,东数西算可将训练任务分发到算力质优价廉的西部,将推理任务分发到终端用户密集的东部,实现“全国一台超级计算机”的愿景。
据悉,该操作系统由紫金山实验室联合江苏省未来网络创新研究院、江苏未来网络集团、江苏移动、江苏联通、宁夏电信、国家(深圳·前海)新型互联网交换中心等单位共同开发。在发布活动现场,该试验采用训练推理一体化的业务场景,在中卫、南京、深圳三个城市进行效果演示。
东数西算算网操作系统跨广域调度试验该试验演示包括三个部分:一是训练推理任务全局智能分发。程序开发者向系统分别描述训练和推理任务对于算网资源的需求:训练任务是强计算、弱交互的,系统会优先将其向价格优惠的算力枢纽节点进行分发;推理任务是强交互、弱计算的,系统会按需将其向靠近用户的算力集群进行分发。其中,训练任务的程序会立即运行,而推理任务的程序会等到有用户访问时才触发运行。
二是模型文件跨域即时同步。在训练任务程序运行过程中,系统感知到用户访问时会根据用户所在位置就近地触发推理任务的程序运行。当训练任务的程序运行完毕,系统会自动将训练任务生成的模型文件,即时地同步到各个推理任务所在运行的区域。
三是算力资源极致动态伸缩。在推理任务的程序运行过程中,系统能够根据在线用户数量对算力资源进行动态伸缩。当在线用户激增时,系统观察到网络请求数量的快速增加,并自动触发程序的批量扩展,同时自动分配更多的算力资源用于保障服务质量。当在线用户减少时,系统将相应地进行程序收缩与资源释放,当用户全部下线时,系统自动将程序关停并释放掉所有资源。
此次试验为实现“全国一台超级计算机”提供了基础。无论是程序开发者还是终端用户,都无须感知资源,并且能任意使用资源,进一步地向“算力像水电一样方便地使用”这一愿景目标迈进。
(受访者供图)