huozm32831 |
2021-04-24 20:14 |
随着人工智能的发展,智慧计算已经成为业内的共识,也成为相关企业关注和竞争的焦点。但就像一个硬币的两面,智慧计算在快速前行和应用的同时,阻碍其进一步发展的挑战也开始显现出来。
例如在日前举行的主题为“智算• 向新”的2021浪潮数据中心合作伙伴大会(以下简称IPF2021)上,中国工程院院士,浪潮集团执行总裁、首席科学家王恩东就直言:多元化、巨量化、生态化是当下和未来智慧计算必须直面的挑战。那么接下来的是,谁能全面、系统性的解决这些挑战,谁就有可能成为智慧计算时代的弄潮儿。
巨量化、多元化需无限算力,更要重塑传统计算架构
众所周知,随着硅芯片逼近物理和经济成本上的极限,摩尔定律已趋近失效。但与之相对的却是,互联网的蓬勃发展、信息量爆炸式增长以及 AI 技术研究和应用普及,由此带来了多元化和巨量化的挑战。
以巨量化为例,首先表现在模型参数多,训练数据量大。例如在自然语言处理方面,基于自监督学习的预训练模型兴起后,模型精度随着模型尺寸及训练数据的增加显著提升,在2020年GPT-3模型的参数量首次突破了千亿大关,达到了1750亿。按照当前的发展趋势预测,到2023年模型的参数量会突破百万亿,也就是基本达到人脑神经突触数量,人脑的神经突触数量约125万亿。
其次是计算力需求的指数级增长。例如深度学习从2011年兴起到今天,对于算力的需求一直是指数级增长,每隔3.4个月算力需求翻一倍,其中,2020年GPT-3需要的算力竟然高达3640个Petaflop/s-day,从而给体系结构、系统软件等方面提出了新的要求。
最后是模型应用规模变大,AI的应用渗透到各个行业,并已经有了大量的AI开发平台,吸引了超百万的AI开发者,开发了各种AI应用和服务,这些AI开放平台每天承载着数万亿次的调用量,巨量的调用对计算中心的算力、应用产生了极大的挑战。
至于多元化,则表现在,AI应用引入了新的计算类型,从推理到训练跨度大,同时数据量也从GB到TB、PB不断提升,数据类型从结构化到半结构化、非结构化更加复杂多样。而不同数值精度的计算类型对计算芯片的指令集、架构等要求也不一样,这样就导致之前一直使用的通用CPU和架构效率低下,甚至没有办法满足多元计算场景的要求。
面对上述挑战,业内认为,以多体系的融合架构重塑传统的计算架构才是解决之道,并主要体现在数据处理、数据存储和数据交换三大计算单元间以及软件技术和硬件技术等的融合能力上。
例如在数据处理、数据存储和数据交换三大计算单元间的创新融合上,硬件方面,计算芯片设计不仅需根据应用需求平衡片上计算和缓存间的配比,还需同步考虑计算芯片间及其与内存等数据存储单元间的 I/O 接口类型;不同计算系统间也需根据应用需求和计算能力的变化,同步升级互联网络连接。软件方面,包括操作系统的文件系统、内存管理以及面向分布式集群的虚拟化、资源管理、任务调度等技术,都将同步耦合升级。
而在软件技术和硬件技术的创新融合上,一方面计算软件将基于对应用需求的拆解进行对硬件能力的适配管理,软件定义的范围和影响力将继续拓展,不仅可实现面向应用的整体系统资源调度和管理,还需针对网络、存储等个性化需求实现软硬解耦和资源灵活配置。
另一方面计算硬件将通过与算法和框架等深度融合的专用定制,实现对特定应用需求的支持。那么相关企业又是如何看待的呢?
以浪潮为例,在浪潮的眼中,要迎接上述挑战,必须要打破传统的计算体系结构设计,从根本上解决多架构(异构)引发的无法兼容、效率不高的问题。这与上述业内的观点可谓不谋而合。
为此,浪潮发布了“面向应用的硬件重构+软件定义”的智慧计算创新体系架构—“融合架构3.0”。硬件层将计算、存储、网络等资源分类进行资源整合,同类资源池化后不同设备间可任意重组;软件层面利用主动业务资源需求智能感知技术,进行自适应硬件资源重构、动态组合和智能分配。
简单地说,这一架构在软件定义计算、软件定义存储、软件定义网络的基础上,通过具备应用感知的资源管理和调度系统,为智算中心建立起一套具备智能化的操作系统。这一架构摒弃了通用计算的“控制与计算融合、计算与存储分离”的理念,而是将控制与计算分离、计算与存储融合,再利用智能网卡来实现多元算力融合,最大化计算效率,化解多元化与巨量化的计算新挑战。
通俗地理解,融合架构3.0更像将整个数据中心整合为一台“服务器”(即智算中心),从硬件层面,它全部是变成资源池能够横向拉通,从软件层面,所有的资源都在一个可调度的范围之内来进行动态的组合,来满足不同应用的需要。
众人拾柴火焰高,元脑生态破解生态之困
任何产业的发展都离不开生态的支持,对于智慧计算更是如此。
但就像前述王恩东院士所言,除了巨量化和多元化外,智慧计算正在面临生态化的挑战。
“很多人可能会问一个问题,大家都说人工智能好,但是这个东西与现在的业务、与客户的应用场景怎么结合,用户没有人懂算法和模型,也缺少好的AI开发平台,同时那么多的算法、模型如何与应用进行最优组合等等。懂AI算法与模型的人往往是集中在科研机构或者头部企业,但缺少对传统行业的需求场景、业务规律的深入理解,也拿不到最关键的业务数据对模型进行训练,这就导致技术无用武之地”王恩东称。
实际上,埃森哲等咨询机构的调查报告也证明了王恩东的判断,即现在70%以上有技术的研究机构和科技公司缺少需求场景、领域知识和数据,70%以上的行业用户则缺少技术人才、AI平台和实践能力。
此外,微软、谷歌等科技公司自建从芯片到架构的生态闭环,像一座座烟囱,缺乏横向打通和整合。IT时代少数科技巨头建立标准,行业再拼积木一样地应用,问题较小;不过到了智算产业却呈现出高度离散、碎片和多元的特征,AI算法、框架、芯片架构、指令集与编程库五花八门,严重制约AI技术的应用和发展。
面对上述生态的挑战,相关企业可谓是八仙过海,各显神通。其中浪潮在IPF2021发布的,针对智算产业的“元脑生态2.0”、做智算合伙人的生态主张,以及及全新元脑生态平台AIStore在业内引起了广泛关注(此前浪潮在2019年就发布了元脑生态1.0)。
在浪潮看来,此前的“元脑生态1.0”是为人工智能而生,“元脑生态2.0”就是为了智算而生,为千行百业而生。就像浪潮信息总裁彭震所言,“其可帮助合作伙伴面对智算时代的三大挑战,更能协同合作伙伴跨越智算鸿沟。”
至于全新元脑生态平台AIStore,其将成为元脑伙伴能力的“聚合器”和“孵化器”。一方面,AIStore聚合了芯片和算法公司等左手伙伴优质的技术和产品,通过ISV、SI、分销商等右手伙伴强大的解决方案和渠道能力,快速推动各类智慧场景解决方案的行业落地和复制;另一方面,伙伴间的能力融合将有助于孵化出更多的多元复合场景智慧解决方案,加速AI全场景融合进程。
除了浪潮之外,尽管有的企业也在主张自己的智算生态,但浪潮已经开花结果。
截至到现在,浪潮推动的元脑生态业绩相当亮眼,已经发展了1万5千多的合作伙伴,包括2200多个行业ISV,超过90%的方案百强企业。在人工智能百强企业当中有85%都与浪潮有着深度的合作,这里面不仅包括BAT等互联网头部企业,也包括第四范式、寒武纪等AI的企业。可以说,在事关智算产业发展最为重要的生态建设中,浪潮已经走到了前列。
拐点已至,挑战有多大,机遇就有多大
2020年,我国提出加快构建“以国内大循环为主体、国内国际双循环相互促进”的发展格局。进入“十四五”开局年,数字经济成为经济发展破局的重要抓手,传统的计算已经无法满足越来越多和复杂的算力需求,智算将成为数字经济的“发动机”。可以说,计算的拐点已至(智算开始超过传统计算成为未来的主流形态,开始走向大规模应用),新的市场机会开始显现。
对此,IDC中国副总裁兼首席分析师武连峰认为,计算力支撑产业智慧应用落地,是数字经济和数字化转型发展的基石。十四五规划的新科技、新产业、新格局、新经济、新区域、新环境6大关键词下,都透露出一个信息:数字技术支持的重要性。在新发展格局下,企业将面临巨大的数字化发展机遇。
事实的确如此,据IDC的数据,2020年全球对人工智能的投资总额达到了500亿美元,预计到2024年投资总额将超过1100亿美元,投入值非常大,回报也将是非常丰厚的。根据普华永道的预测,到2030年人工智能技术将为全球GDP带来14%的提升,大约16万亿美元。
新的机会自然意味着新的挑战和竞争。那么谁又能成为智算时代的弄潮儿?
从我们的观察看,浪潮可谓先人一步。除了应对上述智算挑战方面得法外,在重要的产品及智算中心落地方面已然处在领先的位置。
例如IDC数据显示,浪潮位列2020年上半年全球AI服务器销售份额第一,并且在中国AI服务器市场连续四年额超过50%。
值得一提的是,4月22日,全球权威AI基准评测MLPerf公布2021年最新榜单发布,在全部有效41个项目中,浪潮获得18项性能第一,斩获几近半数冠军。其中,浪潮AI服务器NF5488A5获得数据中心固定任务(Closed)11项性能第一, 再次卫冕“性能王”。浪潮NE5260M5边缘服务器一举拿下边缘固定任务(Closed)7项性能第一。
在我们看来,浪潮AI服务器之所以在MLPerf™基准评测中表现出色,得益于浪潮在AI计算系统创新上卓越的系统设计能力和全栈优化能力。在硬件层面,通过对CPU、GPU硬件性能的精细校准和全面优化,使CPU性能、GPU性能、CPU与GPU之间的数据通路均处于最优状态;在软件层面,通过对TensorRT的深度优化,结合GPU硬件拓扑对多GPU的轮询调度优化使单卡至多卡性能达到了近似线性扩展。
尽管如此,浪潮依然不断迭代前行,丰富产品线。例如在近日举行的IPF2021,浪潮发布了一系列智能新品,包括面向人工智能计算的视频AI加速器M10A、AI服务器“扬子江”、AI服务器NF5488、业界首款智算操作系统元脑OS、智能网卡NX20、边缘计算微服务器EIS800等。
在智算中心落地方面,今年初,按照《智能计算中心规划建设指南》,寒武纪和浪潮在南京联合承建的智算中心已经投入运营使用。该智算中心对外可提供的算力可达到每秒百亿亿次,采用了最先进的AI处理芯片和AI计算平台,都代表着当前我国智算中心建设的最高水平。该中心将为区域的公共算力服务,创新应用孵化,产业集聚发展,科研创新和人才培养提供助力和支撑。
至此,我们认为,浪潮通过创新智算体系结构、构建智算产品体系、推动智算中心落地、建设元脑产业链生态引领智算发展的战略已经开始践行,并正在取得成果。
挑战有多大,机遇就有多大,而机遇总是留给那些具备迎接挑战能力的企业。 |
|