什么是高性能计算 (HPC)?
HPC 是一种使用并行工作的强大处理器簇来处理大量多维数据集,并以极高的速度解决复杂问题的技术。
HPC 实时解决了当今一些最复杂的计算问题。HPC 系统的运行速度通常比最快的商用台式机、笔记本电脑或服务器系统快一百万倍以上。
超级计算机,即包含数百万个处理器或处理器核心的专用计算机,几十年来在高性能计算领域发挥了至关重要的作用。与大型机不同,超级计算机速度更快,一秒钟可以运行数十亿次浮点运算。
超级计算机至今仍发挥着重要作用;全球最快的超级计算机是美国的 Frontier 系统,其运算速度高达每秒 1.206 百亿亿次浮点运算(即每秒执行 1.206 艾次浮点操作)。1但如今,越来越多的组织在托管在本地或云端的高速计算机服务器簇上运行 HPC 服务。
HPC 工作负载揭示了新的洞察分析,推动了人类知识的进步,并创造了显著的竞争优势。例如,HPC 可用于 DNA 测序以及实现股票交易自动化。它运行人工智能 (AI) 算法和模拟(例如那些使自动驾驶汽车),分析来自物联网 (IoT) 传感器、雷达和 GPS 系统的实时数据流,以便做出瞬间的决策。
行业时事通讯
辅以专家洞察分析的最新科技新闻
通过 Think 时事通讯,了解有关 AI、自动化、数据等方面最重要且最有趣的行业趋势。请参阅 IBM 隐私声明。
谢谢!您已订阅。
您的订阅将以英语提供。每份时事通讯都包含取消订阅链接。您可以在此管理您的订阅或取消订阅。更多相关信息,请参阅我们的 IBM 隐私声明。
HPC 是如何工作的?
标准计算系统主要通过使用串行计算来解决问题。它将工作量划分为一系列任务,然后在同一处理器上逐个运行这些任务。
大规模并行计算
并行计算在多个计算机服务器或处理器上同时运行多个任务。HPC 采用大规模并行计算,使用数万至数百万个处理器或处理器内核。
计算机集群(也称 HPC Cluster)
HPC Cluster 由多台联网的高速计算机服务器组成,并配备用于管理并行计算工作负载的中央调度程序。这些被称为节点的计算机使用高性能多核 CPU 或 GPU(目前更有可能使用 GPU),非常适合严格的数学计算、机器学习 (ML) 模型和图形密集型任务。单个 HPC Cluster 可以包含 10 万个或更多节点。
Linux 是运行 HPC Cluster 的应用最广泛的操作系统。其他操作系统包括 Windows、Ubuntu 和 Unix。
高性能组件
HPC Cluster 中的所有其他计算资源,例如网络、内存、存储和文件系统等,都具有高速和高吞吐量等特性。它们也是低延迟组件,能够与节点保持同步,并优化簇的计算能力和性能。
消息传递接口 (MPI)
HPC 工作量依赖于消息传递接口 (MPI),这是一种用于并行计算机编程的标准库和协议,支持用户在簇中的节点之间进行通信。
高性能计算
适用于 IBM Cloud 的第四代 Intel Xeon 可扩展处理器
了解 Intel 和 IBM 对云行业下一代微架构的承诺。
深入了解 IBM Cloud 上的 Intel 解决方案
高性能计算与量子计算
高性能计算 (HPC) 依赖于经典计算中使用的传统比特和处理器。相比之下,量子计算利用基于量子力学的专门技术来解决复杂问题。量子算法能够创建多维计算空间,这是一种更高效的方式来解决复杂问题(例如模拟分子行为),这些都是经典计算机或超级计算机无法足够快速解决的。量子计算预计不会很快取代高性能计算。相反,这两种技术可以结合起来以实现效率和最佳性能。
HPC 和云计算
仅仅在十年前,HPC 的高昂成本(包括拥有或租赁一台超级计算机,或在本地数据中心构建和托管 HPC Cluster 簇)使得大多数组织对 HPC 可望而不可及。
如今,云中的 HPC(有时称为 HPC 即服务 (HPCaaS))为企业提供了一种速度更快、可扩展性更强且更经济实惠的方式来利用 HPC 技术。HPCaaS 通常包括访问托管在云服务提供商数据中心的 HPC Cluster 和基础设施,以及网络功能(例如 AI 和数据分析)以及 HPC 专业知识。
今天,三种融合趋势推动云中的 HPC:
需求激增
各行各业的组织越来越依赖高性能计算 (HPC) 应用程序带来的实时洞察分析和竞争优势来解决复杂问题。举例来说,信用卡欺诈检测是我们所有人都依赖并且大多数人都曾经历过的事情,它越来越多地依赖 HPC 技术,能够更快地识别欺诈行为,减少烦人的误报,即使在欺诈行为不断变化的情况下亦是如此。
自 ChatGPT 等技术推出以来,各组织迅速接受了生成式人工智能(生成式 AI)的前景,以加速创新和促进增长。这一发展进一步刺激了对高性能计算的更大需求。HPC 提供高计算能力和可扩展性来支持大规模 AI 驱动的工作量。根据 Intersect 360 Research 的一份报告,2023 年全球用于高性能计算 (HPC) 和人工智能 (AI) 的可扩展计算基础设施市场总额为 857 亿美元,同比增长 62.4%,主要原因是超大规模公司在其 AI 基础设施上的支出几乎增长了三倍。2
低延迟、高吞吐量 RDMA 网络的流行
远程直接内存访问 (RDMA) 使一台联网计算机能够访问另一台联网计算机的内存,而不会涉及任何计算机的操作系统或中断任何计算机的处理。这有助于最大限度地减少延迟并提高吞吐量,减少内存带宽瓶颈。新兴的高性能 RDMA 网络架构,包括 InfiniBand、虚拟接口架构和基于融合以太网的 RDMA 等,实质上正在使基于云的 HPC 成为可能。
广泛的公有云和私有云 HPCaaS 的可用性
如今,包括 Amazon Web Services (AWS)、Microsoft Azure、Google Cloud 和 IBM Cloud 在内的每个领先的公共云服务提供商都提供 HPC 服务。虽然有些组织继续在本地部署高度受监管或敏感的高性能计算工作量,但许多组织正在采用或迁移到硬件和解决方案供应商提供的私有云高性能计算服务。
在云端进行 HPC 的优势
云端高性能计算使组织能够利用大量的资产来解决复杂问题,并带来以下优势:
快速配置和部署高强度工作量。
通过按需扩展产能,缩短实现目标所需的时间。
通过利用技术满足需求,并仅为实际使用的计算能力付费,从而实现成本效益。
使用云服务提供商的管理工具和支持,构建您的特定高性能计算 (HPC) 工作量架构。
HPC 用例
高性能计算 (HPC) 应用程序已成为人工智能 (AI) 的代名词,尤其是机器学习 (ML) 和深度学习应用程序。如今,大多数 HPC 系统在设计时都考虑到了这些工作量。
从数据分析到前沿研究,HPC 正在推动以下行业用例的持续创新:
医疗保健、基因组学和生命科学
人类基因组测序的首次尝试耗时 13 年;如今,HPC 系统仅用一天时间即可完成这项工作。医疗保健和生命科学领域的其他高性能计算 (HPC) 应用包括医疗记录管理、药物发现与设计、快速癌症诊断和分子建模。HPC 可视化帮助科学家从模拟中获得洞察分析并快速分析数据。
媒体和娱乐
HPC Cluster 能够以所需的高速实时传输直播内容、渲染 3D 图形与特效,并有效缩短制作周期、降低生产成本。它还可以帮助媒体公司获得数据驱动的洞察分析,以实现更好的内容创作和分发。
银行与金融服务
除了自动化交易和欺诈检测之外,HPC 还为蒙特卡罗模拟和其他风险分析方法中的应用提供支持。
政府和国防
在这一领域,两个不断增长的 HPC 用例是天气预报和气候建模,二者均涉及处理庞大的历史气象数据和数百万个每日气候相关数据点的变化。其他政府和国防领域的应用包括能源研究和情报工作。
能源
在与政府和国防领域有重叠的某些情况上,与能源相关的 HPC 应用包括地震数据处理、油藏模拟和建模、地理空间分析、风力模拟和地形测绘。
汽车行业
汽车产业使用 HPC 来模拟和优化产品和流程的设计。例如,HPC 可以运行计算流体动力学 (CFD) 应用程序,用于分析和解决与流体流动相关的挑战。这包括模拟空气动力学以减少空气阻力和摩擦,以及进行电池模拟以优化电池性能和安全性。
网络安全
HPC 可以分析大量数据以识别模式,以帮助防止网络攻击或其他安全威胁。