(原标题:AWS的最新芯片,太强了)
如果您希望可以时常见面,欢迎标星收藏哦~
来源:内容编译自nextplatform,谢谢。
凭借其自主研发的 Graviton 4 Arm 服务器处理器,亚马逊网络服务已将一款可与 AMD X86 CPU、Ampere Computing 和 Nvidia Arm CPU 等所有顶级产品相媲美的 CPU 投入到该领域,并且它正在推动价格/性能的提升,从而推动亚马逊各个业务部门及其 AWS 上的 IT 基础设施租赁客户对其的采用。
现在,Graviton 4 处理器的内存得到了提升,这反过来又使它们能够承担更多受内存容量和内存带宽限制的任务。
Graviton 4 处理器于 2023 年 11 月推出,基于Arm Ltd 的“Demeter” Neoverse V2 核心。关于 Graviton 4 处理器,我们还有很多不了解的地方,如本文顶部的特色图片所示,我们试图将已知的信息拼凑起来,填补空白,以更全面地了解这款 Arm CPU 与其前代产品以及数据中心中竞争对手 X86 和 Arm 芯片相比如何。看一看:
如您所见,AWS 的 Annapurna Labs 部门创造了“Nitro”DPU 以及 Graviton CPU、“Trainium”AI 训练 XPU 和“Inferentia”AI 推理 XPU,在推动设计达到最先进水平与降低这些芯片价格并使 AWS 仍能盈利的平衡方面已经取得了长足的进步。
注:上表中以红色斜体粗体标记的项目是The Next Platform的估计值。
与上一代 Graviton 3 相比,Graviton 4 芯片拥有更快的内核、更好的内核和更多的内核,而且 AWS 首次创建了双插槽 NUMA 内存集群,以使 192 个以 2.8 GHz 运行的内核承担工作负载。最初的 Graviton 4 芯片配备了 1.5 TB 的 DDR5 主内存,运行频率为 5.6 GHz,而 Graviton 3 使用 4.8 GHz DDR5 内存,只有 8 个内存通道,而 Graviton 4 有 12 个,后者芯片从这些额外的通道中获得了 50% 的容量和带宽提升,并从更快的 DDR5 内存中获得了 16.7 的额外提升。加起来,每个 Graviton 4 插槽可获得 537.6 GB/秒的带宽,这与任何其他 X86 或 Arm CPU 所能提供的一样好,对于许多卡在 CPU 上、无法轻松移植到 GPU 的 HPC 工作负载来说已经足够了。
Graviton 4 R8g 实例于 7 月初正式上市,当时我们对其进行了详细介绍。它们涵盖 1 到 96 个 vCPU,每个 Graviton 4 插槽从 8 GB 到 768 GB;每个实例的网络带宽最高可达 40 Gb/秒,弹性块存储 (EBS) 也最高可扩展至每个插槽 30 Gb/秒。
正如我们在 7 月份所说的那样,我们认为双插槽 Graviton 4 实例是一个特殊情况,因为双插槽机器的网络带宽只有 50 Gb/秒,EBS 带宽只有 40 Gb/秒。此外,没有实例大小介于 96 到 192 个核心之间,如果亚马逊基于 Graviton 4 构建的所有物理机器都使用双插槽主板,那么你就会期望有这样的实例。或者,也许它只是想在客户跨越 NUMA 障碍后销售满载的机器。
以下是今天推出的全新 X8g 内存增强型实例与 7 月份推出的现有 R8g 实例的对比情况:
AWS 尚未公布内存增强型 Graviton 4 实例的定价,您知道,我们对这类事情很不耐烦。因此,我们研究了具有不同内存容量的 Graviton 3 实例(准确地说是基本 R7g 和 M7g Graviton 3s 的双倍增强内存),并计算了内存差异和价格差异。结果表明,以 4.8 GHz 运行的增量内存每小时每 8 GB 的成本为 0.0031875 美元。因此,我们取这个数字,将其提升了用于 Graviton 4 实例的内存速度的增加(在 5.6 GHz 时性能提高了 16.7%),然后在上表中计算了 X8g 实例的按需租赁成本。您可以想象,额外的内存容量并不是免费的,但我们认为这是估计 AWS 可能对 X8g 实例收取的费用的合理方法。如果您使用这样的内存定价将 R8g 实例上的内存扩展到 X8g 实例的大小(这些机器的所有其他功能都是相同的),那么您会发现租用 X8g 实例的价格比租用 R8g 实例的价格高出 50.5%。
如果我们是 AWS,我们就会这样做。
自 2018 年 11 月 Graviton 1 首次亮相以来,Graviton 处理器的各种顶级配置如下:
早在 7 月份,我们就估算了节点中带有本地闪存的常规 Graviton 4 实例的年度按需租赁成本,该成本以粗体红色斜体显示。我们并不是想暗示客户会以这种方式购买这些实例,但我们确实想表明这些每小时费用“肯定会增加”,正如演员查理·辛 (Charlie Sheen) 曾在庭审中尴尬地作证时打趣说的那样。
在粗体蓝色斜体中,我们显示了我们为新的顶级 X8g 实例估算的年度按需租赁成本。这个想法是,大内存不是免费的,您必须有使用 X8g 实例的需求。而且,根据 AWS 的说法,我们认为许多使用之前的 Graviton 2 和 Graviton 3 实例的客户将认真考虑内存增强型 Graviton 4 实例。无法在 Graviton 2 和 Graviton 3 处理器上运行的应用程序(某些内存密集型 HPC 应用程序和内存分析和数据库)将无法在 Graviton 4 实例上运行。
大内存 Graviton 4 处理器的一个有趣用例是 – 您猜对了 – 由 Annapurna Labs 设计未来的 Graviton CPU。为了好玩,AWS 首席布道师(一种公关经理)Jeff Barr在宣布内存增强型 Graviton 4 芯片的博客文章中发布了此图表:
该图表显示了在 AWS 为 Graviton 4 软件包设计 I/O 芯片和计算芯片时启动的 Graviton 实例数量。初始基线略低于 2,000 个实例,并且运行正常,每日和每周的峰值最高可达此基线计算水平的 2 倍。随着 I/O 芯片和计算芯片的设计逐渐走向流片,虚拟测试和设计验证变得越来越激烈,基线接近 4,000 个实例同时运行,峰值最高可达 8,000 个,有时甚至高达 11,000 个并发实例(如果您仔细查看此图表)。
如您所见,Graviton 4 I/O 芯片于 2022 年第四季度流片,计算芯片于 2023 年第一季度流片,这是 AWS 透露的一个有趣的信息。
然而,AWS 并未透露 X8g 的额外内存将如何提升 EDA 性能或减少正在运行的实例数量。
据我们所知,EDA 实际上是一种单核、单任务的令人尴尬的并行工作负载,因此您在一项任务中投入的核心数量类似于您可以在可能的设计空间中测试的场景和配置数量。例如,上面的峰值“代表数十万个核心同时运行”,Barr 说。此外,据我们所知,EDA 软件是按核心授权的,因此拥有更快的核心(Graviton 4 核心肯定得益于 Demeter V2 设计)意味着您可以更快地完成任务,而每个插槽拥有更多核心意味着您可以在每个实例中完成更多任务。这就是您在 EDA 工作上有钱有时间的原因。
看看 Graviton 4 实例如何加速 Graviton 6 处理器的设计将会很有趣。。。也许 AWS 应该就此提供一个案例研究。我们很乐意研究并撰写它。
对于许多使用 Graviton 2 X2gd 实例的 HPC 客户来说,Graviton 4 每个核心的 L2 缓存是原来的两倍(2 MB 对比 1 MB),内存带宽是原来的 2.6 倍,每个核心的计算性能提高了 60%。X8g 实例的内存容量和核心数量也是原来的 3 倍,EBS 带宽和以太网带宽也是原来的 2 倍。所有这些都将帮助芯片设计师更快地完成更多的 EDA 工作,并且每个工作单位的成本可能会更低。
https://www.nextplatform.com/2024/09/19/aws-boosts-memory-capacity-on-graviton-4-compute/
半导体精品公众号推荐
专注半导体领域更多原创内容
关注全球半导体产业动向与趋势
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第3891内容,欢迎关注。
『半导体第一垂直媒体』
实时 专业 原创 深度
公众号ID:icbank
喜欢我们的内容就点“在看”分享给小伙伴哦
站长:乡村生活网;联系电话:023-72261733 ;微信/手机:18996816733;邮箱:2386489682@qq.com;
办公地址:涪陵区松翠路23号附12;