公司名称:元越-服务器_存储-量子创新(北京)信息技术有限公司
联系方式:010-62462728
公司地址:海淀区高里掌路3号院24号楼二层
公司邮箱:support@iaserver.com
HPC集群管理作业调度系统
(人工智能深度学习平台)
解决方案
如果您是管理员
n 如何部署、备份和恢复成百上千台的集群节点系统
n 如何快速监控集群硬件指标使用率、监控集群负载
n 如何操作远程开/关机
n 节点故障,集群系统是否可以快速报警
n 节点宕机,快速还原系统,减少故障处理时间
n 用户众多,资源管理混乱,各个用户还要设置资源限额
n 调度策略、队列配置、系统管理员命令行操作困难
n 掌握集群使用,完成数据统计
n 如何避免用户绕开调度系统提交作业
如果您是用户
n Linux系统使用经验不足,如何快速掌握集群使用技巧
n 如何更好的与应用程序相结合,方便作业提交
n 为是否需要安装编译器、函数库和应用程序发愁
n 如何直观、方便的使用Linux系统中的文件
n 如何在多台机器上执行同一条命令
智速云超级计算平台 V2.0是量子创新(北京)信息技术有限公司自主研发的高性能集群软件,采用B/S架构,通过浏览器进行操作实现集群资源统一部署、管理、监控、报警、调度和报表,可将松散堆叠的服务器变成一整套HPC集群系统,可大幅提高集群效率,简化集群管理。
智速云超级计算平台可以帮助用户部署操作系统,安装和调试集群软件、应用环境和应用软件,搭建一套完整的HPC软件系统。适用于航天、汽车、电子、生命科学、气象、石油、科研等大规模高性能并行计算领域。
高性能集群一般可以分为硬件层、系统软件层、集群软件层、应用环境层和应用层,智速云超级计算平台及其相关服务涵盖了硬件层以上、应用层以下的三层,即系统软件层、集群软件层和应用环境层,这是保证HPC应用能在集群硬件设备上运行的基本条件,如下图所示:
智速云超级计算平台集群部署模块帮助系统管理员快速部署数百台节点的集群系统,简单完成集群节点的操作系统和软件的部署。
n 批量安装、快速部署
n 节点弹性扩展、动态伸缩
n 系统备份与恢复功能
n 针对不同节点分发相应系统镜像、定制软件包
n 操作系统、管理软件、应用环境统一部署
智速云超级计算平台通过Web Portal将集群管理、集群监控、作业调度管理、集群报表等各个功能模块的界面统一起来,实现了量子创新(北京)信息技术有限公司自主研发软件的统一登陆,提供用户管理和权限管理功能,管理员可以给用户设置各个模块的访问权限。
n 用户管理
智速云超级计算平台界面提供新建、编辑和删除用户(组)功能,可以设置用户根目录,确认用户隶属的组别和修改密码等。
n 权限设定
智速云超级计算平台系统中,集群管理、作业调度、集群监控和报表模块的访问权限有管理员和用户两种,通过智速云超级计算平台界面可设置用户访问权限,分配用户可用的功能模块。
系统管理员可实时监控真实物理机柜视图,可便捷、直观查看所有节点运行情况,监控集群系统以及每个节点的系统资源使用情况(CPU、内存、硬盘、网络、负载),支持页面、邮件报警,提供统一控制报警功能且支持报警阈值设置。
n 直观集群监控
真实、直观的物理机柜视图展示节点排放位置、显示节点状态信息指示灯,包括负载、是否在线、CPU温度等信息;
n 集群/节点性能状态监控
监控集群CPU、内存使用率,提供一时间段内集群/节点CPU、内存、交换分区、网络、磁盘、负载等性能指标查看,用户可及时掌握集群状态。
n 文件系统使用情况
监控Lustre等并行文件系统使用情况,包括文件系统已使用空间、剩余空间、文件系统使用率,以及文件系统扩容和减少的变化。
n 网络设备流量监控
提供详细的网络设备流量监控数据,可实时查看各个网络端口进出的数据量
n 故障报警通知
当节点故障或CPU、内存等指标负载过高时,发送页面报警或邮件报警通知,以便系统管理员及时处理,提供历史报警信息查询。
n 报警阈值设置
配置不同的报警阈值,灵活应对变化。
系统管理员可查看节点列表进行节点角色管理、并行命令、远程开关机等操作,通过Web实现NFS共享目录管理,操作日志以及开关机记录。
n 节点角色管理
通过指示灯展示节点角色,一键完成节点角色切换。
n 查看节点状态,完成节点操作
查看节点信息,包括是否在线,是否允许提交作业,单机或批量节点操作,例如删除、开机、关机、并行命令、SSH、VNC等。
n 共享目录管理
通过WEB页面创建共享目录、编辑挂载点,避免系统管理员后台进行复杂的NFS共享文件系统的配置。
n 操作系统镜像
支持节点系统镜像管理,一键快速恢复操作系统。
n 集群操作日志查询
作业调度模块帮助系统管理员合理、高效的利用集群系统中的软、硬件资源,调整调度策略来优化资源的利用和减少作业的响应时间,系统管理员可清晰查看到每个节点CPU的使用情况,并且通过配置资源管理器以及调度策略对集群系统进行优化管理,使得复杂的集群资源管理和作业调度变得简单、统一、高效。作业调度模块支持多种方式提交作业,简化作业提交过程,常用的应用程序可设置为模板,方便快速提交作业。通过Web界面上传应用程序算例和作业脚本,并且可对脚本完成在线编辑、删除、压缩等功能。支持容器作业、GPU作业、GPU容器穿透、容器镜像快照等功能,实现HPC与容器相融合。
n 统一查看作业、管理作业
作业管理列表查看作业状态、作业使用的队列、查看每个作业使用的CPU核数。系统管理员可进行挂起、删除作业操作。
n 容器作业
通过容器技术实现作业环境的快速交付与隔离,可自定义配置获得完整的应用环境。支持容器镜像管理与快照制作等功能,减少管理员工作。
n 计算资源控制
计算资源列表可查看到集群中每个节点的核数,查看每个节点CPU核数的使用情况。控制节点是否可以提交作业,修改节点属性,控制节点资源。
n 配置调度策略
实现资源提前预留、Backfill算法、动态优先级、公平共享、配额管理、系诊断、系统监测和统计等功能;支持QoS和基于策略的调度;支持抢占策略;重要作业可以优先使用集群资源;
n 严格控制用户(组)资源
由系统管理员严格限制用户(组)资源,配置用户(组)可提交的最大作业数,设置CPU、内存资源限额、磁盘资源配额、作业优先级。
n 实现资源预留
由用户申请,系统管理员批准后设定一个起始时间值,预留计算节点资源给申请的用户使用,保证作业在特定的时间内有可用的计算资源。
n 灵活作业提交方式
支持多种作业提交方式:命令行、Web界面、应用软件集成界面、作业脚本和可执行文件等多种提交方式。常用应用程序可设置为模板。
n 完善的文件管理
用户可直接管理Linux系统下的文件,对文件进行新建、编辑、上传、下载、复制、剪切、粘贴、压缩、解压缩等功能,使得没有Linux基础的用户非常容易上手操作,能快速使用集群系统。
智速云超级计算平台报表系统为用户提供详细、丰富的数据资源统计功能,包括系统资源使用统计报表,账单收费报表以及记账设置,可导出PDF、HTML、Excel报表。
n 集群计算资源使用统计
统计集群系统CPU、内存、交换分区、存储使用率,生成报表数据。统计作业完成情况,对已完成作业、运行的作业、等待的作业,生成报表数据。
n 统计资源消费、灵活设置费率
灵活设置收费费率,结合用户(组)的CPU使用时间、运行时间等信息以及相应费率,生成账单并提供打印和查询。
智速云超级计算平台之上可以进行更具体的业务实现,基于平台高效的作业调度系统及其底层的容器技术,实现了人工智能深度学习实训平台。通过该平台可以快速创建教学所需的实验环境,集成当下热门的所有深度学习框架所需的应用环境,支持CPU/GPU作业。内置配套学习资料、模型数据及教学视频,同时支持自定义课程及应用环境的创建,实现完整的深度学习教学实训平台。
n 秒级交付深度学习实验环境
通过Web界面一键部署深度学习环境,快速启动训练任务。无需进行任何复杂的应用环境搭建,即开即用,并且支持多个人工智能实训在线练习。系统可集成各种主流深度学习框架,如TensorFlow、Coffe等
n 便捷操作,丰富功能
无需任何复杂的配置与客户端的安装,即可在浏览器中实时作业,环境内文件管理也易如反掌。支持容器文件WEB远程访问,支持容器内文件管理、虚拟网络、环境内应用端口映射等高级功能。
n 丰富的配套素材与良好的扩展性
系统内置丰富的深度学习教学素材、教学视频、实验环境及模型数据,教师也可以很方便地定制化特色课程,因材施教,同时还支持自定义课程上传。
n 丰富的资源监控
系统可动态分配GPU资源,资源合理使用,可实时监控CPU/GPU资源使用情况和运行状态。
n 便捷
采用B/S架构,直观Web Portal图形界面
文件管理操作简单易用
多节点命令并行执行
自定义用户提交界面,形成应用模板
n 可靠
管理节点HA,避免单点故障
节点系统备份,快速恢复节点默认配置
计算资源登录控制,防止私用计算资源
配备报警信息,警报阈值自定义设置
n 专业
独立的模块化设计,用户权限分明,按需组合
集成SSH和VNC登陆访问功能
智能化、多策略任务调度
支持多种数据报表格式
n 独特
采用LDAP和NIS用户认证系统
用户定制化开发与定制化服务
调度、监控模块支持移动终端
支持无盘集群、减少硬件资源消耗
CAE(Computer Aided Engineering)指工程设计中的计算机辅助工程,指用计算机辅助求解分析复杂工程和产品的结构力学性能,以及优化结构性能等,把工程(生产)的各个环节有机地组织起来,其关键就是将有关的信息集成,使其产生并存在于工程(产品)的整个生命周期。而CAE软件可作静态结构分析,动态分析;研究线性、非线性问题;分析结构(固体)、流体、电磁等。
在汽车行业应用中,经常要对整车进行机械动力学仿真,在这一领域中,国内常见的软件有MSC/ADAMS。其被广泛用来进行汽车操纵稳定性、汽车行驶平顺性的动态仿真。ADAMS中的TIRE模块提供若干种轮胎模型供分析时选用,以准确地建立轮胎的动力学模型。ADAMS中的CAR模块专为汽车动力学仿真而设计,使用十分方便。另外在国内应用比较广泛的还有美国ETA公司的VPG,VPG(Virtual Proving Ground)虚拟试验场是ETA公司长期总结汽车分析工程经验,在LD-DANA平台上开发的,是ETA、LSTC和ANSYS三家公司合作推出的专门应用于汽车工程的软件。VPG主要被应用于当前汽车产品开发中的重点——整车系统疲劳、整车系统动力学、NVH和整车碰撞安全及乘员保护等热门问题。
在计算机上进行的基于现代计算力学理论的数值仿真技术,广泛应用于航空航天、汽车、船舶、机械、建筑、电子等行业领域,CAE领域软件大部分采用MPI并行编程环境进行编译,采用并行计算的速度较原来有较大的提升。
应用:采用智速云超级计算平台高性能计算管理平台可为CAE提供一套完整的高性能计算环境软件包,将CAE应用软件与调度系统相结合,提供应用模板,方便作业提交和查看结果。
常用软件:
HFSS |
高频结构仿真 |
COMSOL |
物理场建模与仿真 |
Feko* (EMSS) |
三维全波电磁仿真软件 |
ABAQUS |
工程模拟有限元软件 |
ANSYS |
大型通用有限元分析软件 |
LS-DYNA |
瞬态响应动力学分析软件 |
FLUENT |
通用计算流体力学分析软件 |
Maxwell |
|
Hspice |
集成电路性能分析模拟程序 |
基础科学研究是指认识自然现象、揭示自然规律,获取新知识、新原理、新方法的研究活动,主要应用领域包括高能物理、计算化学、纳米材料等。理论、实验、计算是当今科研创新的三大重要手段,高性能计算主要通过模拟仿真的技术把目前通过实验无法实现的想法得以实现,在降低研发成本的基础上加快人们对自然世界的认识。例如,使用并行程序进行密度泛函理论(DFT)计算已经成为材料科学、固体物理、计算化学等领域内必不可少的研究手段之一。并行计算已经广泛应用于基础学科的研究,用户主要为高校以及科研院所。
应用:智速云超级计算平台高性能计算管理平台针对高校以及科研院所的使用特点提供一套完整的软件解决方案,支持多种复杂并行环境与应用程序,多种作业调度策略,为用户提供软件支撑平台。高校与科研院所有用户多、管理复杂、数据统计、以及用户水平参差不齐等问题,智速云超级计算平台完善的集群管理、丰富的数据报表统计,以及B/S架构采用Web Portal的使用方式可帮助用户解决此类问题,让用户更多的精力专注于自己的科研成果,帮助用户搭建一套高效、稳定的集群系统。
常用软件:
VASP |
原子尺度材料模拟的计算机程序包 |
QCHEM |
量子化学计算软件 |
NWCHEM |
量子化学计算软件 |
GAUSSIAN |
量子化学计算软件 |
MOLPRO |
量子化学计算软件 |
Materials Studio |
分子模拟软件 |
GAMESS |
量子化学计算软件 |
生命科学是研究生命现象、生命活动的本质、特征和发生、发展规律,以及各种生物之间和生物与环境之间相互关系的科学。运用大规模高效的理论模型和数值计算来识别基因组序列中代表蛋白质的编码区,破译隐藏在核酸序列中的遗传语言规律。用于有效地控制生命活动,能动地改造生物界,造福人类生命科学,与人类生存、人民健康、经济建设和社会发展有着密切关系,是当今在全球范围内最受关注的基础自然科学。
应用:智速云超级计算平台高性能计算管理平台可为生命科学高性能计算用户配备完备的并行软件开发和运行环境,配置智速云超级计算平台 Monitor和智速云超级计算平台 Schedule模块进行集群监控以及作业调度,包含针对不同应用软件的模板设置,提高用户的使用效率、降低高性能计算机的使用门槛。
常用软件:
BLAST |
序列相似性检索程序 |
FASTA |
序列搜寻 |
ClustalW |
对序列对比 |
Hmmer |
搜索序列蛋白质序列与序列对比 |
DOCK |
分子半柔性对接 |
ZDOCK |
刚性对接 |
RDOCK |
蛋白质对接 |
MORDOR |
柔性对接 |
高性能计算集群广泛适用于石油勘探行业,主要应用于油藏模拟分析、地震油层分析、油层数据可视化方面。其中地震油层分析是利用地震波法用炸药在地面激起人工地震波,这种地震波可传入地下深处,并在碰到不同形态的地质构成时形成不同的反射波,这些反射波经地面的检波器收集、转变成电子信号后可存储为数据,而后利用高性能服务器进行地震油层分析任务,利用加工处理野外观测所得地震波数据,将地震数据变成地质语言──地震剖面图或构造图,处理后的地震数据可根据地下岩层的产状和构造关系,找出有利的含油气地区。
应用:智速云超级计算平台高性能计算管理平台广泛应用于石油行业,可监控所有计算资源,实现集群远程管理,同时可提供CGG和Omega等软件的运行情况和使用报表。
常用软件:
ProMax |
地震资料处理 |
SeisSpace |
|
Geodepth |
|
Omega |
|
Geocluster |
|
Nexus |
油藏模拟 |