应用案例

经过20多年的发展,宝德持续而深刻地把握市场需求,积累了海量的客户资源和丰富的服务经验

宝德 HPC 方案助力石油勘探软件加速
案例背景

易源兴华公司是我国石油勘探领域内一支强有力的研发队伍,其在地震偏移处理及解释方面开发了一套独有的高效软件,代表了在这一领域的最高技术水平。公司主要客户涵盖中国海洋石油、中国石油等石油勘探研究所。石油勘探系统包括三个环节:数据采集、地震偏移处理、成像解释。其中的关键应用为地震偏移处理。宝德集群主要支持后两者。地震偏移处理对计算机厂商的要求最为苛刻,要求计算机具备高 IO 带宽,高计算能力。一直以来,SGI、SUN、IBM 等国际 IT 巨头凭借多年来在该领域积累的经验垄断了这一市场,包括易源兴华公司在内的石油行业一直采用国外产品。近年来,我国开始自主研发石油系统地震偏移处理软件,力求打破了国际软件厂商的垄断。在硬件方面,国产厂商也不断发力,缩小了同国际厂商之间的差距,开始登上石油勘探领域的舞台。在认真分析客户需求的基础上,宝德打出了一套组合牌,成功赢得这个项目。

案例分析

在了解 CGG、Omega 等地震偏移软件方面的资料后发现石油行业高性能计算应用,要求硬件设备具备以下几个特性:
节点的高可靠性,避免计算节点和管理节点频繁死机。
I/O 的高并发及高带宽访问,由于节点数较多,存储系统不仅需要满足高并发的读写访问需求,而且还要提供高带宽的读写相应能力具有便捷的集群管理方案,提供简单易用的集群管理工具和接口。
多套针对不同应用的网络,数据网、计算网和管理网分离,互相无干扰。
针对上述应用分析的结果,我们设计了一套高性能计算集群整体解决方案。

解决方案

计算部分包含 50 台 2U 机架式 CPU 计算节点,10 台 2U 机架式 GPU 计算节点及相应辅助节点。共拥有 20Tflops 的计算能力。其中每台 CPU 计算节点根据应用特点,特别设计了由 7 块高速 SAS 盘做 RAID0 组成的高性能本地数据盘。每台 GPU 计算节点,特别设计了由3 块 GPU 加速的高性能异构计算环境。网络部分采用网络分离结构,包括管理网和计算网。管理网络设计使用最普遍的千兆以太网作为整个集群的管理网。它保障了所有节点最基本的互通互联需求,方便了管理员远程登陆。同时也肩负操作硬件底层芯片实现远程开关机等功能的重任。计算网络全部使用万兆低延迟无阻塞以太网作为数据传输通路,使数据无阻塞、高效快速的转发。保障了集群所有节点之间的数据的高速可靠传递。通过以上网络配置的组合。存储部分基于高性能计算集群的“统一数据池”的特点,针对目前石油勘探计算平台的现状以及未来的发展趋势。为了有效相应前端数以百计的计算节点大规模高并发长时间访问的需求。后端存储既要具有高带宽的特性,又要有高 IOPS 的特性。传统的 SAN 文件系统和 NAS 文件系统是远远无法满足实际需求的。宝德设计了一套分布式的海量存储系统。整套系统可提供 256TB的可使用空间,以及 5GBps 的实际使用带宽,保证数据调用的畅通无阻。存储具有大容量文件共享、高效海量并发访问、可定制的数据安全性保证、低总体拥有成本、方便的系统管理等诸多特点。软件部分我们采用联科的 Chess 软件。Chess 集群软件系统是对高性能计算行业,耗时多年开发出来的一套功能完善的大规模服务器集群管理软件。它拥有强大的工作负载管理平台,简化了 HPC 集群管理。它为客户提供了全方位的集群监控管理、作业调度等功能。可以精细展现当前集群运行状态,动态显示监控信息,记录历史错误信息,及时发现集群的异常状况。在集群软件系统的管理平台中,整合了集群监控,作业提交,节点监控,web 远程登陆等功能。

客户收益

方案综合考虑了大规模集群系统的瓶颈问题,消除了计算节点,网络,存储和软件上的诸多瓶颈。
解决了管理节点和计算节点因内存占用导致的频繁死机问题。
I/O 带宽和 IOPS 能力显著增加。有效解决了了存储端拖慢整个集群情况。
在集群管理方面,提供了简单易用的集群管理工具和接口。
计算网和管理网分离,互相无干扰。