计算机能改变它的行为吗?

芬兰it科学中心的老板Kimmo Koski说:“你首先注意到的是它有多安静。”科斯基博士将lumi -芬兰语中的“雪”描述为欧洲最强大的超级计算机,位于北极圈以南250公里的芬兰卡贾尼镇。

LUMI于去年投入使用,用于从气候建模到寻找新药的各种领域。它有成千上万个独立的处理器,每秒能够执行高达429千万亿次的计算。这使它成为世界上第三强的超级计算机。它由水力发电提供动力,其废热被用来帮助卡贾尼的家庭取暖,它甚至以二氧化碳的负排放而自豪。

LUMI让我们看到了高性能计算(HPC)的未来,无论是在专用超级计算机上,还是在运行大部分互联网的云基础设施上。在过去的十年里,在机器学习、基因组测序和从股票市场、核武器到天气的各种模拟技术的推动下,对高性能计算的需求激增。它很可能会继续上升,因为这些应用程序将乐于消耗尽可能多的计算能力。在同一时期,训练尖端人工智能模型所需的计算能力每五个月翻一番。

所有这些都对环境有影响。hpc——更广泛地说,计算机——正在成为能源的大户。国际能源机构估计,数据中心的用电量占全球用电量的1.5%至2%,大致相当于整个英国经济的用电量。预计到2030年,这一比例将上升到4%。在政府承诺减少温室气体排放的情况下,计算机行业正试图找到用更少的资源做更多事情和提高产品效率的方法。这项工作发生在三个层面:单个微芯片;用这些芯片制造的电脑;而数据中心,反过来又容纳了计算机。

从微芯片本身开始。在过去的80年里,数字计算机的效率大大提高。一台现代机器可以进行大约10万亿次的计算,而这相当于第二次世界大战结束后一次计算所消耗的能量。这一巨大的进步很大程度上要归功于业界对摩尔定律的坚持。摩尔定律是指集成电路中可容纳的元件数量每隔几年就会翻一番。

几十年来,摩尔定律的一个令人高兴的副作用是,随着电路的缩小,它也变得更加节俭。这种效应被称为登纳德缩放(Dennard scaling),以当时在IBM工作的科学家罗伯特·登纳德(Robert Dennard)的名字命名,他在1974年写了一篇关于这个问题的论文。然而,在2000年代中期,超微小组件的棘手物理学意味着这种关系开始破裂。随着部件的缩小,计算机的效率仍在不断提高,但其速度已大幅放缓。

这迫使芯片制造商更加努力地追求过去免费获得的收益。lumi的cpu是一种通用芯片,用于运行程序和协调机器的其余部分,它是由美国芯片设计公司AMD制造的。除了超级计算机,它的cpu和它更大的竞争对手英特尔的cpu一起为数据中心提供动力,使互联网得以运行。AMD的产品技术架构师塞缪尔·纳夫齐格(Samuel Naffziger)说,在2010年,AMD把提高能源效率“放在了优先事项的首位”。

这些天,它的芯片使用了一系列的技巧来试图降低功耗。它们覆盖着传感器,根据分配给它们的任务,监测并最小化发送到电路各部分的电量。其他改进集中在确保尽可能多的芯片在任何给定时刻都在做有用的工作,因为空闲的电路毫无意义地浪费了电力。AMD希望通过更聪明的技巧和更小的组件的结合,到2025年将其最强大的芯片的效率提高到2020年的30倍。

另一种选择是将工作从通用的cpu转移到专门为更小范围的数学任务设计的芯片上。最著名的是“图形处理单元”,简称gpu。gpu最初的开发目的是为电子游戏制作更时髦的图像,现在它在许多任务上表现出色,这些任务可以被分解成小块,每个小块可以同时处理。类似的,专用芯片越来越多地处理诸如网络之类的任务,而这些任务以前是留给CPU处理的。

这种系统级的调整是可以提高效率的第二个尺度。惠普企业(Hewlett Packard Enterprise)负责高性能计算的贾斯汀?霍塔德(Justin Hotard)说:“当你使用数千个cpu和gpu时,它们的连接方式会影响超级计算机的能效。”惠普企业是一家专注于高效超级计算机的公司。

确切地说,如何最好地将所有东西连接起来仍然是一个活跃的研究领域。向计算机其他地方的另一个芯片发送信号要消耗大量的能量。因此,我们的目标是尽量减少这种情况发生的频率,并尽量减少信号传播的距离。惠普更喜欢一种被称为“蜻蜓拓扑”的东西,这是一种两层系统,在这种系统中,芯片组以簇的形式相互连接,而这些簇又依次相互连接。该系统是模块化的,这使得它很容易通过简单地添加新节点来扩展。今年2月,巴利亚多利德大学(Valladolid University)的计算机科学家Francisco Andújar和他的同事发表了一篇论文,在进行了大量的数学分析后,他们表明,蜻蜓的设置接近于高效超级计算的理想设计。

效率并不需要以牺牲性能为代价。Top500.org网站根据速度和效率对超级计算机进行排名。今年6月发布的最新报告将LUMI列为世界上效率第七高、速度第三快的机器。安装在田纳西州橡树岭国家实验室(Oak Ridge National Laboratory)的Frontier是目前世界上速度最快的计算机,大约比LUMI快四倍。然而,在效率方面,Frontier排名第六。

数据中心是能够获得收益的最后一个领域。在这个高科技领域,超级计算机和为互联网提供动力的更普通的服务器都在这里运行。计算会产生大量的热量。尽管新发现的重点是效率,但现代CPU或GPU在全速运行时可以产生500瓦或更多的热量。在一个数据中心里有成千上万的数据中心,这意味着要处理几兆瓦的热量。

让它们保持凉爽需要能量。衡量数据中心效率的标准是电源使用效率(PUE),即数据中心的总功耗与其中用于完成有用工作的电量之间的比率。根据IT顾问公司Uptime Institute的数据,一个典型数据中心的PUE为1.58。这意味着大约三分之二的电力用于运行计算机,而三分之一用于运行数据中心本身,其中大部分将被冷却系统消耗。

巧妙的设计可以将这个数字大大降低。大多数现有的数据中心依靠空气冷却。液体冷却提供了更好的热传递,以额外的工程努力为代价。一些初创公司甚至提供将电路板完全浸入专门设计的液体浴中。由于使用了液体冷却,Frontier的PUE达到了1.03。LUMI建在北极圈附近的一个原因是利用亚北极的凉爽空气。在同一设施内的一台相邻的计算机,利用这种免费冷却,PUE等级仅为1.02。这意味着98%的电能被转化为有用的数学。科斯基博士说:“这接近了可能的极限。”

即使是最好的商业数据中心也达不到这样的数字。例如,谷歌的平均PUE值为1.1。正常运行时间协会(Uptime Institute) 6月发布的最新数据显示,经过几年的稳步改善,全球数据中心效率自2018年以来一直停滞不前。主要原因是经济学,而不是计算机科学。随着对计算机的需求激增,公司让老旧的、效率较低的基础设施运行更长时间是有道理的。

目前看来不错的东西可能很快就会成为法律要求。考虑到他们的碳减排目标,美国、英国和欧盟等国的政府正在考虑新的规则,以迫使数据中心变得更有效率。一项新的德国法律规定,到2027年,最低PUE为1.5,到2030年为1.3。科斯基博士说:“我们希望LUMI能够说明高性能计算如何能够跨越净零碳排放的界限。”想要获得建议的人最好还是预订一趟芬兰之旅。

相关推荐