英特尔Xe2 GPU正式发布:性能提升 50% 包含全新光线追踪内核

在 ITT 2024 大会上,英特尔粉碎了所有关于取消或推迟 GPU 和 Arc 阵容的传言。汤姆-彼得森(Tom Petersen)围绕下一代 Xe2 架构做了精彩的演讲。从细节入手,英特尔将一切化繁为简,不再使用 LP、LPG、HP 和 HPG 命名方案,而是简单地将其下一代产品线称为 Xe2。在内部,这些芯片仍将采用这些代号,但不会再用于客户端。

英特尔 Xe2 正式发布,并将应用于 Lunar Lake CPU 和代号为”Battlemage”的下一代 Arc 独立显卡阵容。

图片[1] - 英特尔Xe2 GPU正式发布:性能提升 50% 包含全新光线追踪内核 - 万事屋

英特尔 Xe2 的部分目标是提高利用率、改善工作分配和减少软件开销。Xe2 是一项从头开始的设计,修复了 Xe”Alchemist”GPU 存在的几个主要问题。一开始,英特尔就用一张 IP 性能效率图向观众展示了高达 12.5 倍的显著收益,让人惊叹不已。我们将深入介绍 Xe2 是什么,以及英特尔是如何实现这些收益的。

图片[2] - 英特尔Xe2 GPU正式发布:性能提升 50% 包含全新光线追踪内核 - 万事屋

英特尔表示,Xe2 架构与 Xe 架构一样,具有高度的可扩展性,这将促使其集成到 Lunar Lake 等低功耗移动 SoC 中,并集成到稍后推出的具有独立选项的高端 Arc 显卡中。

图片[3] - 英特尔Xe2 GPU正式发布:性能提升 50% 包含全新光线追踪内核 - 万事屋

第二代 Xe 内核或 Xe2 配备了多种计算资源,这些资源被重新划分为本地 SIMD16 引擎,以提高效率。

图片[4] - 英特尔Xe2 GPU正式发布:性能提升 50% 包含全新光线追踪内核 - 万事屋

Xe2 核心功能

8 个 512 位矢量引擎

8 个 2048 位 XMX 引擎

支持 64b 原子运算

192KB 共享 L1$/SLM

图片[5] - 英特尔Xe2 GPU正式发布:性能提升 50% 包含全新光线追踪内核 - 万事屋

矢量引擎也已更新,其中包括:

SIMD16 本地 ALU –支持 SIMD16 和 SIMD32 操作

Xe 矩阵扩展(支持 INT2、INT4、INT8、FP16、BF16)

扩展数学和 FP64 –常数:正弦、余弦、对数、指数

3 向共同发行 –FP + INT/EM + XMX

图片[6] - 英特尔Xe2 GPU正式发布:性能提升 50% 包含全新光线追踪内核 - 万事屋

Alchemist”Xe”GPU 上也有 Xe 矩阵引擎或 XMX 单元,但现在的变化是,它们支持更多数据类型,运行速度更快,FP16 额定频率为 2048 OPS/时钟,INT8 额定频率为 4096 OPS/时钟。

图片[7] - 英特尔Xe2 GPU正式发布:性能提升 50% 包含全新光线追踪内核 - 万事屋

让我们来看看这些新引擎是如何在 Xe2 渲染片段(Xe2 GPU 的基本模块)中堆叠的。这些渲染片可根据需要进行堆叠和扩展,并经过优化,以减少延迟、消除停滞并改善硬件/软件握手。这些渲染片连接到命令前端,该命令前端本机支持间接执行。

图片[8] - 英特尔Xe2 GPU正式发布:性能提升 50% 包含全新光线追踪内核 - 万事屋

渲染片还包括一个新的几何引擎,具有 3 倍的顶点获取吞吐量和 3 倍的网格着色性能(具有顶点重用功能);新的 L1$/SLM 缓存,用于顺序外采样(具有压缩纹理);2 倍的无过滤采样吞吐量和可编程偏移;一个新的 HiZ 单元,缓存增加了 50%,并支持对小型基元进行早期 HiZ 剔除。最后,还有两个新的像素后端(Pixel Backends),可提供两倍的混合吞吐量,像素颜色缓存增加了 33%,并可将目标预取渲染至 L2$。

图片[9] - 英特尔Xe2 GPU正式发布:性能提升 50% 包含全新光线追踪内核 - 万事屋
图片[10] - 英特尔Xe2 GPU正式发布:性能提升 50% 包含全新光线追踪内核 - 万事屋
图片[11] - 英特尔Xe2 GPU正式发布:性能提升 50% 包含全新光线追踪内核 - 万事屋
图片[12] - 英特尔Xe2 GPU正式发布:性能提升 50% 包含全新光线追踪内核 - 万事屋
图片[13] - 英特尔Xe2 GPU正式发布:性能提升 50% 包含全新光线追踪内核 - 万事屋
图片[14] - 英特尔Xe2 GPU正式发布:性能提升 50% 包含全新光线追踪内核 - 万事屋

Xe2 的最新光线跟踪单元在 Xe1 的基础上进行了改进。Xe2 内核的一个主要部分是 RTU(光线跟踪单元),它具有 3 条遍历管道、18 个方框交叉点(每个方框交叉点 6 个,每个 RTU 3 个方框)和 2 个三角形交叉点。

图片[15] - 英特尔Xe2 GPU正式发布:性能提升 50% 包含全新光线追踪内核 - 万事屋

以上就是英特尔 Xe2 GPU 架构的基本概述:

第 2 代 Xe2 内核

增强型矢量引擎

深度缓存

新型 XMX 发动机

性能和效率 – 优化前端

本机硬件支持 exectue 间接命令

更大的光线跟踪装置

图片[16] - 英特尔Xe2 GPU正式发布:性能提升 50% 包含全新光线追踪内核 - 万事屋

总体而言,英特尔的 Xe2 GPU 架构旨在与游戏更加兼容,并实现更高的利用率。新的执行间接块被游戏用来加速绘制调用,由于它被虚幻引擎等引擎大量使用,因此获得 12.5 倍的提升对游戏玩家来说是个好兆头。

第一款采用 Xe2 GPU 的产品是集成配置的 Lunar Lake。Lunar Lake 中的多个区块都与 GPU 有关,如媒体引擎和显示引擎。

图片[17] - 英特尔Xe2 GPU正式发布:性能提升 50% 包含全新光线追踪内核 - 万事屋

在谈这些之前,我们先来谈谈 Lunar Lake 的 Xe2 配置:

8 个 Xe2 内核

64 个矢量引擎

2 几何管道

8 个采样器

4 个像素后端

8 个光线追踪单元

8 MB L2$

图片[18] - 英特尔Xe2 GPU正式发布:性能提升 50% 包含全新光线追踪内核 - 万事屋
图片[19] - 英特尔Xe2 GPU正式发布:性能提升 50% 包含全新光线追踪内核 - 万事屋
图片[20] - 英特尔Xe2 GPU正式发布:性能提升 50% 包含全新光线追踪内核 - 万事屋

Lunar Lake Xe2 GPU 有 8 个 Xe2 内核,每个 Xe2 内核有 8 个 XMX 和 8 个矢量单元、一个负载/存储单元、一个线程排序单元和一个专用的 L1/L$ 缓存。这 4 个 Xe2 内核中的每一个都能生成一个渲染片。

图片[21] - 英特尔Xe2 GPU正式发布:性能提升 50% 包含全新光线追踪内核 - 万事屋

那么,与 Meteor Lake 的 Xe GPU 相比,这一切的性能表现如何呢?英特尔表示,Xe2 GPU 在 ISO 下的性能提高了 50%,在性能不变的情况下,功耗大幅降低。

图片[22] - 英特尔Xe2 GPU正式发布:性能提升 50% 包含全新光线追踪内核 - 万事屋

XMX 块也是一个重要部分,它涌入了 67 个峰值 INT8 TOPS,为 Lunar Lake CPU 的整体 AI 能力锦上添花。该芯片总共提供 120 个平台 TOPS,其中 48 个 TOPS 来自 NPU4,5 个 TOPS 来自 CPU 本身。

图片[23] - 英特尔Xe2 GPU正式发布:性能提升 50% 包含全新光线追踪内核 - 万事屋

月球湖的 Xe 显示引擎

现在,我们从 GPU 转向 Lunar Lake CPU 本身的其他模块,首先是显示引擎。显示引擎配备 3 个显示管道,最高支持 8K60 HDR,最高支持 3x 4K60 HDR,最高支持 1080p360 或 1440p360。显示引擎支持 HDMI 2.1、DisplayPort 2.1 和新的 eDP 1.5 功能。

图片[24] - 英特尔Xe2 GPU正式发布:性能提升 50% 包含全新光线追踪内核 - 万事屋

显示引擎的前端包括解码/解密和流缓冲区。在像素处理流水线方面,每个流水线有 6 个平面,支持色彩转换和合成的硬件,同时具有灵活性和高能效。

图片[25] - 英特尔Xe2 GPU正式发布:性能提升 50% 包含全新光线追踪内核 - 万事屋
图片[26] - 英特尔Xe2 GPU正式发布:性能提升 50% 包含全新光线追踪内核 - 万事屋
图片[27] - 英特尔Xe2 GPU正式发布:性能提升 50% 包含全新光线追踪内核 - 万事屋
图片[28] - 英特尔Xe2 GPU正式发布:性能提升 50% 包含全新光线追踪内核 - 万事屋
图片[29] - 英特尔Xe2 GPU正式发布:性能提升 50% 包含全新光线追踪内核 - 万事屋
图片[30] - 英特尔Xe2 GPU正式发布:性能提升 50% 包含全新光线追踪内核 - 万事屋

此外,还有一个额外的低功耗优化流水线,带有面板重放功能(空闲帧期间的功率门控)和一个带有 LACE(本地自适应对比度增强)功能的全新亮度传感器。在压缩和编码方面,显示流压缩引擎支持 31 种视觉无损压缩和传输编码(HDMI 和 DisplayPort 协议的流编码)。路由器和端口包括流组装和端口路由,最多支持 4 个端口,增加了灵活性。

图片[31] - 英特尔Xe2 GPU正式发布:性能提升 50% 包含全新光线追踪内核 - 万事屋
图片[32] - 英特尔Xe2 GPU正式发布:性能提升 50% 包含全新光线追踪内核 - 万事屋
图片[33] - 英特尔Xe2 GPU正式发布:性能提升 50% 包含全新光线追踪内核 - 万事屋
图片[34] - 英特尔Xe2 GPU正式发布:性能提升 50% 包含全新光线追踪内核 - 万事屋
图片[35] - 英特尔Xe2 GPU正式发布:性能提升 50% 包含全新光线追踪内核 - 万事屋
图片[36] - 英特尔Xe2 GPU正式发布:性能提升 50% 包含全新光线追踪内核 - 万事屋
图片[37] - 英特尔Xe2 GPU正式发布:性能提升 50% 包含全新光线追踪内核 - 万事屋
图片[38] - 英特尔Xe2 GPU正式发布:性能提升 50% 包含全新光线追踪内核 - 万事屋
图片[39] - 英特尔Xe2 GPU正式发布:性能提升 50% 包含全新光线追踪内核 - 万事屋

回到带有面板重放功能的 eDP(eDisplayPort)1.5,它被称为面板自刷新的进化版,具有早期传输和自适应同步支持的选择性更新。新的显示功能可减少抖动,改善播放效果,同时提供更高的能效。

用于 Lunar Lake 的 Xe 媒体引擎–支持 VVC、侧缓存和更好的编码

Lunar Lake SOC 与 Xe2 GPU 连接的最后一个区块是媒体引擎,它现在拥有自己专用的 8 MB 共享侧缓存。芯片的其他部分可以使用这个新缓存,但没有必要,因为其他内核本身就有专用缓存。

图片[40] - 英特尔Xe2 GPU正式发布:性能提升 50% 包含全新光线追踪内核 - 万事屋

这种侧缓存可为 Lunar Lake 节省大量带宽,因为跨媒体工作负载的系统内存流量减少了。这也大大降低了编码工作负载的功耗。

图片[41] - 英特尔Xe2 GPU正式发布:性能提升 50% 包含全新光线追踪内核 - 万事屋
图片[42] - 英特尔Xe2 GPU正式发布:性能提升 50% 包含全新光线追踪内核 - 万事屋
图片[43] - 英特尔Xe2 GPU正式发布:性能提升 50% 包含全新光线追踪内核 - 万事屋
图片[44] - 英特尔Xe2 GPU正式发布:性能提升 50% 包含全新光线追踪内核 - 万事屋
图片[45] - 英特尔Xe2 GPU正式发布:性能提升 50% 包含全新光线追踪内核 - 万事屋
图片[46] - 英特尔Xe2 GPU正式发布:性能提升 50% 包含全新光线追踪内核 - 万事屋

媒体引擎支持最高达 8k60 10 位 HDR 解码、高达 8k60 10 位 HDR 编码、AVC、VP9、H.265 HEVC、AV1 和全新的 VVC 引擎。VVC 引擎大大降低了比特率,同时提供与 AV1 相同的质量(文件大小最多减少 10%)。它还支持自适应分辨率流和屏幕内容编码。

图片[47] - 英特尔Xe2 GPU正式发布:性能提升 50% 包含全新光线追踪内核 - 万事屋

最后,我们的 Windows GPU 软件栈已经为 Xe2 GPU 做好了准备。英特尔表示,它花了大量时间调整 Alchemist”Xe”GPU 的 API 级性能,尤其是 DX9,但所有这些软件工作都将转移到 Xe2,并支持所有最新的 API 和框架及其运行时。

图片[48] - 英特尔Xe2 GPU正式发布:性能提升 50% 包含全新光线追踪内核 - 万事屋
图片[49] - 英特尔Xe2 GPU正式发布:性能提升 50% 包含全新光线追踪内核 - 万事屋
图片[50] - 英特尔Xe2 GPU正式发布:性能提升 50% 包含全新光线追踪内核 - 万事屋

Xe2 是一种全新的图形架构,它为 Lunar Lake 等集成解决方案和即将推出的 Arc Battlemage 系列的独立选项带来了巨大的性能提升和最新的功能集。公司将在今年晚些时候分享更多有关 Battlemage 独立产品的信息。

© 版权声明
THE END
喜欢就支持一下吧
点赞12 分享
评论 抢沙发

请登录后发表评论

    请登录后查看评论内容