Cerebras发布新的Monster AI芯片 增加了1.4万亿个晶体管

Photo: Cerebras Systems

几乎从Cerebras Systems公司宣布推出一款基于有史以来最大的单芯片计算机的那一刻起,这家硅谷初创公司就宣布了将打造一款更为强大的处理器。就在近日,该公司发布了号称全球最大的芯片 — Wafer Scale Engine 2 (WSE 2),而且是专门为 AI 计算打造的,将在今年第三季度上市。该处理器为超级计算任务而构建,具有破纪录的 2.6 万亿个晶体管(市场上最大的 GPU 只有 540 亿个晶体管)和 85 万颗 AI 优化内核,大小类似餐盘,采用台积电的 7nm 工艺。WSE 2在物理上和它的前身一样大,但是它的容量却大大增加了。该公司的目标是在用于机器学习的神经网络规模不断扩大的情况下依旧保持领先状态。

“在人工智能计算领域,大芯片是王者,因为它们处理信息的速度更快,可以在更短的时间内产生答案,而时间是人工智能进步的敌人,”硬件工程副总裁Dhiraj Malik在一份声明中如此表示。

Cerebras一直致力于将机器学习问题的逻辑解决方案发挥到极致。2015年,Andrew Feldman与其他人共同创立了这家公司。那时候,对大型公司来说,训练神经网络需要花费还太长 — 需要几周时间。其中最大的瓶颈是数据必须在处理器和外部DRAM内存之间来回穿梭,消耗时间和精力。最初的Wafer Scale Engine的发明者认为,解决办法是使芯片足够大,能够在AI处理器核心旁边容纳所需的所有数据。随着用于自然语言处理、图像识别和其他任务的巨大网络即将出现,您将需要个非常大的芯片。多大呢?46225平方毫米。

wafer的尺寸是唯一一个从WSE到新版本WSE2没有改变的统计数据,你可以在这里的表格中看到(与更传统的人工智能处理器相比,Cerebras使用了Nvidia的人工智能图表(排名前100位):

这是如何实现的?

最明显和最重要的驱动力是从台积电(TSMC)的16纳米制造工艺(WSE问世时已有5年多的历史)转变为巨型铸造厂的7纳米工艺,超越了10纳米工艺。这样的跃迁基本上使晶体管密度加倍。根据台积电对其技术的描述,这种工艺的改变还将提高大约40%的速度,并降低60%的功率。

Cerebras 表示,如果没有与台积电多年来的紧密合作,公司就不会取得此次破纪录的成就。光是向7纳米的移动就意味着一个很大的改进,但据Feldman说,该公司还对其人工智能核心的微体系结构进行了改进。他不愿透露细节,但他表示,经过一年多与客户的合作,Cerebras已经吸取了一些教训,并将其纳入了新的核心。

这就引出了推动WSE和WSE 2之间变化的下一件事——客户。尽管在推出WSE时有过一些经验(当时都没有披露),但它现在的清单要长得多,为他们服务的经验也要丰富得多。客户名单大量向科学计算倾斜:

最后是公司规模的大幅增长。IEEE Spectrum于2019年访问了Cerebras,当时Cerebras在桑尼维尔有一座小楼。“这个团队的规模基本上已翻了一番,”Feldman说。该公司目前在硅谷、圣地亚哥、多伦多和东京拥有约300名工程师,网站上还列出了十多个空缺职位。

什么没有改变(很多)?

由于相当明显的原因,芯片本身的大小没有改变。300毫米仍然是大规模生产中的最大晶圆尺寸,因此芯片的外形尺寸不能改变。它仍然被划分成一个7×12的矩形网格,但那只是芯片制造过程中的一个伪影。承载WSE 2的计算机系统称为CS-2,实际上也没有太大变化。大多数芯片实际上是在一个 12 英寸的硅晶片上集合许多芯片,并在芯片上进行批量加工。但 Cerebras Systems 开发的这款芯片是连接在一个晶片上的单个芯片。互连接的设计是为了让所有的晶体管都能高速运转,这样 1.2 万亿个晶体管就能像一个整体一样运行。

Photo: Cerebras Systems

CS-2仍占标准机架的三分之一,耗电约20千瓦,依靠闭环液体冷却系统,并有一些相当大的冷却风扇。在为最初的WSE开发主机系统时,热是最大的问题之一。该芯片需要大约20000安培的电流从一百万个铜线连接到晶圆顶部的玻璃纤维电路板。随着晶圆和电路板的热膨胀,所有这些都保持一致,这意味着要发明新材料,而且需要一年多的开发时间。Feldman说,虽然CS-2需要一些新的工程技术,但它不需要大规模的发明(所有这些都没有改变,我们在Cerebras CS-1上所做的深入研究仍然很有意义。)

另一个遗留问题是CS-2如何使用成千上万的内核来训练神经网络。该软件允许用户使用PyTorch和TensorFlow等标准框架编写机器学习模型。然后,它的编译器将WSE 2的不同大小、物理上相邻的部分用于指定神经网络的不同层。它通过解决一个“地点和路线”优化问题来做到这一点,该问题确保所有层都以大致相同的速度完成它们的工作,这样信息就可以在网络中流动而不会停滞。大脑必须确保“软件足够健壮,不仅可以编译40万个内核,还可以编译85万个内核……在2-2.3倍大的东西上进行放置和路由,” Feldman说。

发表评论

您的电子邮箱地址不会被公开。