中国进入科研黄金时代,通用超算云服务填补算力缺口_高校科研教学算力缺口-程序员宅基地

技术标签: 超级计算机  数字化转型  云服务  

 

 

“自主创新”是十四五规划献策中呼声最高的关键词之一。而在十四五规划中,也提出要坚持创新在我国现代化建设全局中的核心地位,把科技自立自强作为国家发展的战略支撑。尤其是十九届五中全会,审议通过了将实现关键核心技术重大突破,进入创新型国家前列列为国家二〇三五年远景目标。在加强自主创新中,科研R&D经费投入是重要的保障,我国在2018年就已经实现R&D经费总量全球第二,而2019年全国R&D经费投入同比增长12.5%,占GDP的2.23%。

当前,无论是从十四五规划对自主创新和自主科研的重视,还是全国R&D经费历年增长的投入来看,我国都进入到了科研的“黄金时代”。对于科研来说,超级计算机一直起着关键作用。在2020年6月发布的2020全球超级计算机TOP500中,45%的超级计算机来自中国,而未来,中国自主研发的天河三号超级计算机更是将目标直指E级超算。然而,这些作为国家战略资源的超级计算机虽然在国家重大科研应用方面发挥了重要作用,但是在面向中小规模海量运算的通用和商业计算场景来说就显得大材小用。

 

 

“尖端超算是‘高精尖’,服务于万核以上的应用,难以走进‘寻常百姓家’”,北京超级云计算中心总经理吴迪在谈到超算的应用之变时表示,“‘北京超级云计算中心’的使命就是更好的服务于通用超算市场,即万核以下计算用户的需求,包括科研、教育、工程设计类等,提高科研效率、降低研发成本,与尖端超算形成互补,让各行各业大中小用户都能用上超算,推动中国数字化经济转型与升级。”

在2020年11月发布的2020中国高性能计算机性能排行榜TOP 100中,北京超级云计算中心A分区荣获TOP 100排行榜第三名,通用CPU算力第一。该中心专注于通用超算市场,特别是通过与戴尔科技等知名IT硬件供应商的紧密合作,把传统超算三到五年的建设周期缩短到三周,满足海量用户对中小微超算的需求,填补社会算力缺口。

 

填补通用算力缺口

当前,全社会都在加大对于自主创新和研发经费的投入。根据统计,在规模以上工业企业中,电气机械和器材制造业、汽车制造业、医药制造业、化学原料与化学制品制造业等9个行业的2019年R&D经费投入都超过了500亿元;北京、广东、江苏、山东、浙江、上海等6省市的2019年R&D经费投入都超过了1,000亿元。

不过,各大企业和城市对于R&D科研经费的投入,很大一部分都投向了服务器等硬件基础设施,这就造成了R&D科研经费的利用效率不高。北京超级云计算中心总经理吴迪介绍,传统的超算中心一般都是由政府牵头和投资建设,并且由于其特殊性,这种投入往往是不计成本和回报的。正是因为如此,往往动辄几十亿元的资金投入,却面临缺少市场应用的窘境,并且,大型超算中心还存在着建设周期长,一旦建成也往往意味着机器设备还需要二次更新才能继续提供服务。

尖端超算服务的用户大多为行业专家、学者,而通用超算市场中小用户,包括科研、教育、中小企业都存在大量的算力需求,面对性价比、资源使用的灵活性和服务质量等诉求,就需要具备市场化、商业化服务能力的超算中心填补通用算力的缺口,这就是北京超级云计算中心的核心价值。

北京超级云计算中心成立于2011年11月,由中国科学院和北京市政府共建,依托中国科学院计算机网络信息中心建设,由北京北龙超级云计算有限责任公司运营。北京超算中心以立足北京、辐射全国、构建国内领先、国际一流的信息化基础设施及公共服务平台为总目标,面向科学计算、工业仿真、气象海洋、新能源、生物医药、人工智能等重点行业应用领域,随需提供超级云计算服务。

目前,北京超级云计算中心总核心数共27万核,服务用户数超过30,000家,可根据用户的计算量、应用程序及业务场景,提供随需供应、不排队、省心省时的高品质VIP计算服务。吴迪强调,北京超级云计算中心在中国率先推出了超算的云服务化,特别是在疫情期间帮助很多高校和研究所及时完成了科研任务。

北京超级云计算中心的扩容也不像传统超算那样,而是根据用户需求配备多种型号的计算资源,最核心的A区与戴尔科技合作,采用了“第二代AMD EPYC(霄龙)”处理器,满足海量日常科研用户和企业用户的计算需求,并可随需扩容。吴迪强调,北京超级云计算中心配置了多个分区,包括最新型号的硬件设备,从而可以更好的适配不同用户的需求,提高科研效率。

 

通用算力背后的技术布局

北京超级云计算中心坚持以用户需求为导向,提供“随需供应,动态扩容”的计算资源和高质量云化计算服务。截止2020年10月,北京超级云计算中心通用超算算力超过10PFlops,在2020中国高性能计算机性能TOP100排名第三,通用CPU算力市场排名第一。北京超级云计算中心于2018年发布超级云计算服务平台——中国科技云·超算云,2019年启动超级云计算建设模式,2020年实现10PFlops算力。

 

(北京超级云计算中心A分区)

面向不同类型的用户需求,北京超级云计算中心提供不同的计算资源,目前最大的是A分区,同时还有按核调度的M分区、T分区,存储性能加强的IO分区,面向人工智能用户的17区、19区等,分别分布在北京、辽宁、江西、宁夏、湖北和深圳等地,这既是出于成本的考虑,也是出于就近服务用户的考虑。

虽然在北上广等地建设数据中心的难度大成本高,但这里也是国内通用算力的主要市场,需要就近服务这些地区的用户;而在中西部地区布局数据中心,既可以优化成本结构,又可以就近服务当地及周边地区的用户。例如,北上广地区的国家超算中心一年的电费就可能达三四千万甚至更高,而将部分数据中心部署在西部,就可以降低一半甚至更多的电费。北京超级云计算中心以市场化运营,最终的目标是降低成本并回馈客户,让客户能够使用普惠的算力,最终应用到产品研发和科学研究,形成良性循环。

CPU型号的选择也遵循同样的原则——围绕客户需求。尖端超算建设时考虑的是各方面的均衡,因为超级计算机对于资源的需求是多方面的,包括计算、访存、通信和I/O等都要非常出众。而面向广大中小用户时,应用特点是多样性的,用户应用不会同时要求很强的CPU、网络和访存等,例如:计算物理应用为计算密集型,也就是要求CPU扩展性和网络,这种情况下只需要CPU主频适中并搭配高速互联网络即可;但结构强度分析应用为访存密集型,进行有限元分析需要大内存、胖节点的机器,这就需要在相应分区里设置大内存节点。

 

(北京超级云计算中心A区拓扑图)

根据不同的用户需求、设置不同计算资源、满足特定用户的需求,这就演化出了北京超级云计算中心A分区,A分区采用了基于EPYC Rome处理器的Dell EMC PowerEdge服务器,可提供一个节点两个CPU 64核,对于计算物理第一性原理、气动分析等用户很适合,可以用几个节点组成一个小规模或中等规模的计算任务。而有些用户作业不需要64核,但需要海量作业,例如天文的蒙特卡罗模拟只需要单核计算,但完成一批任务需要成百上千个核,这种海量单核计算就需要定制集群,由此引出了M分区和T分区。

北京超级云计算中心CTO郭宇表示,目前北京超级云计算中心A分区为3,000个节点、6,000个CPU的规模,以达到规模、效率和成本的平衡,接下来我们会不断地扩容新的分区,以满足不同用户的需求。目前已完成M分区、T分区以及A2分区的建设, A3分区也正在快速建设中,最终的目标就是保障充沛的计算资源,让用户无需排队、随时都有可用的计算资源。而为了保证用户对后端计算资源的无感知——只要将作业提交上来就无需考虑作业是在华北区或是华东区完成,北京超级云计算中心提供了一整套的作业自动迁移、自动资源匹配等自动运维系统,从而在资源切换上实现了无感知的用户体验。

北京超级云计算中心的算力资源采用超算集群架构,可以提供超过5,000台物理服务器的计算资源,累计超过27万CPU核心;涵盖PB级大容量并行文件系统,全线速、无阻塞的专用计算网络环境,提升了计算速度和扩展性;同时配备有完整、高效、专业的基础软件,包括操作系统、并行编译开发环境等,支持CPU和加速卡的多种编译环境及应用,包括编译器、调试器、MPI并行开发环境及数学库等。北京超级云计算中心覆盖各种级别的任务队列管理和调度功能,根据用户需求及应用场景设置不同的优先级别,从而保障关键业务的正常运行。

 

TOP 3只是一个开始

北京超级云计算中心A分区成功荣获2020中国高性能计算机性能TOP100排名第三、通用CPU算力第一,这对于北京超级云计算中心以及中国的通用超算产业来说,只是一个新的开始。至此,中国的超算逐渐形成了三类市场:万核以上的尖端超算,千核左右的通用超算以及单核到千核的行业超算。其中,通用超算以北京超级云计算中心为代表,行业超算以公有云的超算服务为代表。

 

 

吴迪强调,对于北京超级云计算中心来说,其初心并不是为了获得排名,作为一家市场化运营超算中心的最终目的还是提升行业效率、降低行业成本。企业和科技机构逐步从自建转为购买超级云计算服务模式,一方面可以节省成本,另一方面可以获得更多算力,同时也无需维护系统,从而把更多时间和精力用于科研工作。北京超级云计算中心不仅具有强大的计算能力、丰富的软件资源、可信赖的支持团队、定制化的行业解决方案,可提供随需而用的超算资源,减少计算任务排队,适应多学科应用需求,降低用户资源使用成本,并为大规模复杂技术和商业应用实现提供专业完整的解决方案,同时还提供一对一专属微信群、7×24小时在线服务和5分钟快速响应机制。

对于一个100节点的中型超算数据中心来说,从项目申报、审批一直到项目建设完成,通常的建设周期是三到五年。而北京超级云计算中心则将之前的建设周期,缩短到一个季度,再进一步缩短到3周。传统的尖端超算采用的是针对专门应用而研制的计算机,通用超算和行业超算则采用市面已有标准化产品进行搭建,才可能实现灵活、快速、敏捷的云计算服务模式。而与公有云服务商提供的超算服务有所不同,通用超算对硬件的要求更高。

郭宇介绍,一般公有云厂商的工作负载峰值、谷值波动非常大,机器运行负载平均是在30%或40%左右;而通用超算的机器一定是7×24小时运行,CPU负载一定达到100%。这造成了对于超算服务器的稳定性、可靠性的高要求,必须要能够持续24小时长时间运行,一旦机器出故障或是CPU、内存有问题,对科研成果造成的损失是无法衡量的。北京超级云计算中心进行了一系列测试,最后选择与戴尔科技集团合作,是因为戴尔易安信的设备在各方面表现十分均衡,包括稳定性以及与AMD芯片优势的整合等,更重要的是戴尔科技集团供应链体系成熟,能够随时解决中心对于备件的需求。

 

​(Dell PowerEdge C6525)

北京超级云计算中心希望获得更快的建设周期,而戴尔科技集团良好的供应链体系能够降低北京超级云计算中心的运营成本。实际上,北京超级云计算中心长期以来与戴尔科技集团保持着紧密的合作关系,除了A分区外,其他部分分区也是与戴尔科技集团合作完成的。特别是戴尔科技通过与服务器产业链上下游的良好供应链关系,例如在AMD等发布新一代芯片时就能马上提供最新、最优的样机产品,这让北京超级云计算中心能够在第一时间用上最新的技术与产品。除了服务器外,北京超级云计算中心也广泛采用了戴尔科技集团的网络、存储等多种产品。郭宇还表示,戴尔科技对于数据中心的维护考虑周到,提供了iDRAC等专门的管理工具,对降低维护成本、提高效率都很有帮助。

戴尔科技集团高性能计算实验室主任、高性能计算方案架构师凌巍才介绍,戴尔科技的iDRAC软件产品可以远程对服务器进行访问、管理、开机等底层操作,具体实现方法是每台服务器都有一个iDRAC的IP地址;而另一个软件产品OME(OpenManage Enterprise)则搭建了一个Web控制界面,管理员可直接在界面上访问每台服务,而不用一一登录到每一台服务器上,而且,这两款软件产品都有免费提供给客户的版本。

通过与戴尔科技这样具有成熟硬件供应链体系,以及完整科技产品与技术的供应商合作,北京超级云计算中心得以将通用超算的算力普惠给更多的中小企业和科研机构。

金风科技作为中国风电事业蓬勃发展的推动者,对于超算的需求体现在三个方面:首先,要解决风力发电机叶片的造型设计包括扭向和角度;其次,是风机的选址,要根据风能资源情况以及当地气象一整年的观测数据进行推演;第三,是风力发电厂投产后,向国家电网上报发电量的预测;这些都需要仿真计算。北京超级云计算中心在深入了解了金风科技的需求后提供了满足其要求的计算平台,金风科技迁移到A分区上,再基于平台开发了业务系统,甚至还把系统开放给产业链上其它风电合作伙伴或者生态里的厂商。

总结而言:当前,我国正从加工出口向高附加值产业转移,这就需要大量的计算力,通用超算可谓适逢“天时”;加上“新基建”之火,推动了各地对于超算的需求,这可谓是通用超算的“地利”;而云化服务对于超算的渗透才刚刚开始,北京超级云计算中心又汇聚了一批从业超过十几年的超算行业专业人员,这为以北京超级云计算中心为代表的通用超算奠定了坚实的“人和”基础。加上国家加大对于科研经费的投入以及要求提高科研经费的利用率,通用超算云服务势必将在十四五期间走入发展的黄金时代,进而推进中国自主创新的全面提升与遍地开花。(文/宁川)

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/achuan2015/article/details/112654401

智能推荐

什么是内部类?成员内部类、静态内部类、局部内部类和匿名内部类的区别及作用?_成员内部类和局部内部类的区别-程序员宅基地

文章浏览阅读3.4k次,点赞8次,收藏42次。一、什么是内部类?or 内部类的概念内部类是定义在另一个类中的类;下面类TestB是类TestA的内部类。即内部类对象引用了实例化该内部对象的外围类对象。public class TestA{ class TestB {}}二、 为什么需要内部类?or 内部类有什么作用?1、 内部类方法可以访问该类定义所在的作用域中的数据,包括私有数据。2、内部类可以对同一个包中的其他类隐藏起来。3、 当想要定义一个回调函数且不想编写大量代码时,使用匿名内部类比较便捷。三、 内部类的分类成员内部_成员内部类和局部内部类的区别

分布式系统_分布式系统运维工具-程序员宅基地

文章浏览阅读118次。分布式系统要求拆分分布式思想的实质搭配要求分布式系统要求按照某些特定的规则将项目进行拆分。如果将一个项目的所有模板功能都写到一起,当某个模块出现问题时将直接导致整个服务器出现问题。拆分按照业务拆分为不同的服务器,有效的降低系统架构的耦合性在业务拆分的基础上可按照代码层级进行拆分(view、controller、service、pojo)分布式思想的实质分布式思想的实质是为了系统的..._分布式系统运维工具

用Exce分析l数据极简入门_exce l趋势分析数据量-程序员宅基地

文章浏览阅读174次。1.数据源准备2.数据处理step1:数据表处理应用函数:①VLOOKUP函数; ② CONCATENATE函数终表:step2:数据透视表统计分析(1) 透视表汇总不同渠道用户数, 金额(2)透视表汇总不同日期购买用户数,金额(3)透视表汇总不同用户购买订单数,金额step3:讲第二步结果可视化, 比如, 柱形图(1)不同渠道用户数, 金额(2)不同日期..._exce l趋势分析数据量

宁盾堡垒机双因素认证方案_horizon宁盾双因素配置-程序员宅基地

文章浏览阅读3.3k次。堡垒机可以为企业实现服务器、网络设备、数据库、安全设备等的集中管控和安全可靠运行,帮助IT运维人员提高工作效率。通俗来说,就是用来控制哪些人可以登录哪些资产(事先防范和事中控制),以及录像记录登录资产后做了什么事情(事后溯源)。由于堡垒机内部保存着企业所有的设备资产和权限关系,是企业内部信息安全的重要一环。但目前出现的以下问题产生了很大安全隐患:密码设置过于简单,容易被暴力破解;为方便记忆,设置统一的密码,一旦单点被破,极易引发全面危机。在单一的静态密码验证机制下,登录密码是堡垒机安全的唯一_horizon宁盾双因素配置

谷歌浏览器安装(Win、Linux、离线安装)_chrome linux debian离线安装依赖-程序员宅基地

文章浏览阅读7.7k次,点赞4次,收藏16次。Chrome作为一款挺不错的浏览器,其有着诸多的优良特性,并且支持跨平台。其支持(Windows、Linux、Mac OS X、BSD、Android),在绝大多数情况下,其的安装都很简单,但有时会由于网络原因,无法安装,所以在这里总结下Chrome的安装。Windows下的安装:在线安装:离线安装:Linux下的安装:在线安装:离线安装:..._chrome linux debian离线安装依赖

烤仔TVの尚书房 | 逃离北上广?不如押宝越南“北上广”-程序员宅基地

文章浏览阅读153次。中国发达城市榜单每天都在刷新,但无非是北上广轮流坐庄。北京拥有最顶尖的文化资源,上海是“摩登”的国际化大都市,广州是活力四射的千年商都。GDP和发展潜力是衡量城市的数字指...

随便推点

java spark的使用和配置_使用java调用spark注册进去的程序-程序员宅基地

文章浏览阅读3.3k次。前言spark在java使用比较少,多是scala的用法,我这里介绍一下我在项目中使用的代码配置详细算法的使用请点击我主页列表查看版本jar版本说明spark3.0.1scala2.12这个版本注意和spark版本对应,只是为了引jar包springboot版本2.3.2.RELEASEmaven<!-- spark --> <dependency> <gro_使用java调用spark注册进去的程序

汽车零部件开发工具巨头V公司全套bootloader中UDS协议栈源代码,自己完成底层外设驱动开发后,集成即可使用_uds协议栈 源代码-程序员宅基地

文章浏览阅读4.8k次。汽车零部件开发工具巨头V公司全套bootloader中UDS协议栈源代码,自己完成底层外设驱动开发后,集成即可使用,代码精简高效,大厂出品有量产保证。:139800617636213023darcy169_uds协议栈 源代码

AUTOSAR基础篇之OS(下)_autosar 定义了 5 种多核支持类型-程序员宅基地

文章浏览阅读4.6k次,点赞20次,收藏148次。AUTOSAR基础篇之OS(下)前言首先,请问大家几个小小的问题,你清楚:你知道多核OS在什么场景下使用吗?多核系统OS又是如何协同启动或者关闭的呢?AUTOSAR OS存在哪些功能安全等方面的要求呢?多核OS之间的启动关闭与单核相比又存在哪些异同呢?。。。。。。今天,我们来一起探索并回答这些问题。为了便于大家理解,以下是本文的主题大纲:[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-JCXrdI0k-1636287756923)(https://gite_autosar 定义了 5 种多核支持类型

VS报错无法打开自己写的头文件_vs2013打不开自己定义的头文件-程序员宅基地

文章浏览阅读2.2k次,点赞6次,收藏14次。原因:自己写的头文件没有被加入到方案的包含目录中去,无法被检索到,也就无法打开。将自己写的头文件都放入header files。然后在VS界面上,右键方案名,点击属性。将自己头文件夹的目录添加进去。_vs2013打不开自己定义的头文件

【Redis】Redis基础命令集详解_redis命令-程序员宅基地

文章浏览阅读3.3w次,点赞80次,收藏342次。此时,可以将系统中所有用户的 Session 数据全部保存到 Redis 中,用户在提交新的请求后,系统先从Redis 中查找相应的Session 数据,如果存在,则再进行相关操作,否则跳转到登录页面。此时,可以将系统中所有用户的 Session 数据全部保存到 Redis 中,用户在提交新的请求后,系统先从Redis 中查找相应的Session 数据,如果存在,则再进行相关操作,否则跳转到登录页面。当数据量很大时,count 的数量的指定可能会不起作用,Redis 会自动调整每次的遍历数目。_redis命令

URP渲染管线简介-程序员宅基地

文章浏览阅读449次,点赞3次,收藏3次。URP的设计目标是在保持高性能的同时,提供更多的渲染功能和自定义选项。与普通项目相比,会多出Presets文件夹,里面包含着一些设置,包括本色,声音,法线,贴图等设置。全局只有主光源和附加光源,主光源只支持平行光,附加光源数量有限制,主光源和附加光源在一次Pass中可以一起着色。URP:全局只有主光源和附加光源,主光源只支持平行光,附加光源数量有限制,一次Pass可以计算多个光源。可编程渲染管线:渲染策略是可以供程序员定制的,可以定制的有:光照计算和光源,深度测试,摄像机光照烘焙,后期处理策略等等。_urp渲染管线

推荐文章

热门文章

相关标签