2018年底和2019年初这一段时间,各大厂商纷纷发布年度新品规划和技术研发路线图。英特尔也不例外。令人欣喜的是,面对竞争对手的压力,英特尔今年公布的新技术、新产品信息丰富、干货满满,值得细细品味。英特尔展示了从现在到2021年甚至更远时间的处理器发展路线图,详细介绍了英特尔包括制程、架构、产品等方面的创新技术。

路线图

新架构、新起航

英特尔在路线图披露上不算是一个非常积极的公司,尤其是自Skylake之后,英特尔在路线图发布上就显得非常谨慎,往往只有几个简单的代号或者寥寥几句,没有对这些产品更详细的解释。不过在这一次,英特尔反倒大方披露了其直到2023年的架构发展路线图,包括酷睿微架构和Atom微架构两个部分,并且给出了数个核心架构代号(并非处理器代号)和一些改进方向,令人欣喜。

先来看酷睿微架构方面。首先出现的是2019年即将上市的全新Sunny Cove架构。这款架构的主要改进在于更高的单线程性能,全新的指令集优化和改进的可扩展性。此外,英特尔还详细介绍了Sunny Cove的变化,本文将在后文做出更详细的解读。值得一提的是,Sunny Cove首次加入了针对AVX-512的支持。目前已知将使用Sunny Cove架构,并搭配第十一代核芯显卡的处理器开发代号为Ice lake。

接下来的处理器架构被称为Willow Cove,它的推出时间应该在2020年,也有可能基于10nm或者10nm工艺的改进版本。英特尔宣称新的Willow Cove架构可能重新优化或重新设计了缓存部分,制造方面基于全新的晶体管优化方案,加入了新的安全设计等功能。

2021年即将推出的处理器架构被称为Gloden Cove。这款新架构的工艺目前未知,可能继续基于深度改进版本的10nm或者全新的7nm工艺。Gloden Cove在架构上的改进之处包括单线程性能的提升,AI性能的加强、网络性能和5G性能的优化,进一步提升安全性能等。

从英特尔这三代处理器改进来看,似乎Sunny Cove和Golden Cove的改进较为明显,都提及了单线程性能的提升、新的功能加入等。中间的Willow Cove则更像是工艺制程的改进和一些优化措施等,毕竟优化缓存是很难做到IPC大幅度增强的。这种方式有点类似于之前英特尔的Tick-Tock也就是一代架构、一代工艺的进步方式,现在虽然由于工艺研发越来越困难,很难再一年又一年的Tick-Tock规律性地发展下去,但是很显然,英特尔还是希望通过这样的方法带来处理器发展的进步。

酷睿微架构的内容结束后,接下来是Atom微架构的路线图了。实际上Atom面对的是功耗和体积敏感型市场,在性能、技术上要求不高,因此其技术发展和进步都没有酷睿微架构那么快。英特尔同样给出了三款Atom微架构代号,不过时间跨度从2019年拉长到了2023年。

▲英特尔展示了新的路线图,显示了其到2023年的发展计划。

在2019年,英特尔将推出架构代号为Tremont的Atom微架构,专注于单线程性能的提升、电池续航时间提升以及网络服务器性能,工艺方面很可能采用10nm技术。在Tremont之后,2021年英特尔将发布代号为Gracemont的新架构,继续专注于提升核心单线程性能,同时兼顾频率和适量性能的提升。这意味着,Atom处理器可能获得更宽的矢量计算能力或者新的矢量指令集。

接下来的2023年,由于过于遥远,英特尔也没有想好架构名称,只是简单地称之为“Next month”。这款新品将继续提升性能、频率和一些功能,但是并未明确描述。综上所述,英特尔展示的6款架构面向2个不同的系列,时间跨度也长达4年之久。需要说明的是,英特尔给出的只是微架构名称,并不是最终的商品名。比如Ice Lake采用的是Sunny Cove微架构,同时Ice Lake也只是酷睿处理器的研发代号,实际商品型号尚未公布。

另外值得一提的是,英特尔明确表示未来微架构将会和工艺制程脱钩,微架构不再依赖于制程,新的产品将使用合适的制程推向市场。因此我们有可能看到一些长寿的核心使用完全不同代的女社长制程,当然也有可能一些长寿制程被应用在多个微架构上。英特尔做出这样决定的原因很可能是受到14nm转移到10nm时几乎无休止的延期带来的影响。

由于10nm的不断延后,从2015年发布的14nm Skylake开始,英特尔只能在14nm上不断地深挖工艺潜能,实际架构却几乎没有任bangbus何进步,包括后来的Kaby Lake、Coffee Lake等都深受其害。好在频率不断攀升带来了性能的提升,否则英特尔将面临更为麻烦的市场格局,这也是英特尔宣布微架构和工艺脱钩的原因之一。

全新10nm工艺

密度再创新高

英特尔的工艺在进入22nm后速度就慢了下来。2013年英特尔在14nm工艺初试上就遇到一些问题,量产显著低于目标值,直到2014年初这个问题才得以初步解决,产能才开始进入爬坡,并且最终的产能直到2015年才逐步提高到和之前22nm相当的程度,这已经比最初的预计晚了接近2年之久。

在14nm之后的10nm上,英特尔认为会在2016年底的Cannon Lake上推出新的工艺,实际上直到2019年初,英特尔还没有开始大规模生产10nm的产品,产能爬坡更是无从谈起。从英特尔之前的路线图来看,10nm产品的产能释放可能会进一步延期至2019年下半年,甚至2020年。

10nm延期如此之久的主要原因是英特尔在技术上过于激进。根据英特尔有关工艺制程的算法,英特尔在14nm节点的晶体管密度为37.5 MTr/平方毫米,但是在10nm节点,英特尔希望这个数据可以提升到100.8 MTr/平方毫米,增长了2.7倍之多。英特尔给出了一张表格,里面列出了每一代英特尔制程的相关晶体管密度数据。值得一提的是,14nm++的密度数据相对降低的原因是因为英特尔为了获取更高的频率,从而放宽了一些电路的要求。

在有关10nm的逻辑库方面,英特尔披露称自己已经准备了10种不同类型的10nm库,分别面向不同的应用领域,其中包括短库(HD,高密度)、中高库(HP,高性能)、高库(UHD,超高性能)等。库越短,功率越低,密度越高,峰值性能也就越低。最终的芯片往往是不同类型库的合成,较短的库往往使用于对成本敏感的部分,比如IO或者非核心部分。较高的库通过较低的密度和较高的驱动电流,用于驱动设计中最关键的部分。

因此英特尔实际上只有高密度库的密度达到了100.78MTr/平方毫米,比如英特尔给出了三个典型数据分别是密度、Fins和单元高度,高密度库的数据分别是100.78MTr/平方毫米、8nm和272nm;中高库分别是80.61MTr/平方毫米、10nm和340nm;高库则是67.18MTr/平方毫米、12nm和408nm。

另外,英特尔在晶体管的另一个关键属性,鳍片的性能方面也有了一些进展。早期的FeinFET使用单栅极,随后发展成三栅极,英特尔在22nm中使用三栅极设计以提高总的驱动电流。随后英特尔还引入了新的参数也就是鳍片间距,用于衡量临近鳍片之间的距离。相应的,如果鳍片通过多个门,那么门之间的距离被称为门间距。

理论上来说,鳍片和金属栅极之间的接触越多、鳍片之间的距离越小,那么泄露就越少、性能就越好。这里包含了很多复杂的问题,不仅仅是驱动电流的改善,而且还存在诸如寄生电容和栅极电容密桃社等问题。

从10nm与14nm的工艺对比表中数据来看,英特尔在10nm上大幅度增加了鳍片高度,减少了鳍片间距、门间距等关键性参数,同时还提高了密度。另外鳍片宽度被缩减至7nm,甚至小于制程的典型数值,鳍片宽度和间距越小,意味着寄生电容越插女儿不容易存在。而在“不同厂商工艺的典型数据差异”这张表格中还展示了不同厂商、不同代次工艺之间的差别。这里重点比较了英特尔和台积电、三星16/14nm之后的变化。

▲10nm工艺和前代工艺的性能对比

这个表中展示了不同工艺的CPP和MPP两个关键数值以及最终面积,单位分别是纳米和平方纳米,可以用作衡量不同工艺所能达到的密度,也可用于衡量不同工艺下晶体管的典型尺寸。从这个指标来看,台积电和三星的7nm工艺比英特尔的10nm只稍微密集了一点,这就是为什么英特尔认为自己的10nm工艺依旧具有竞争力的原因之一,但是需要注意的是,CPP和MPP是不可以衡量整个工富婆,塞班岛,怕冷是什么原因艺全貌的,毕竟还有很多其他的参数,比如鳍片、电流值等,这里只是做一些简单的说明。

▲英特尔展示其工艺密度发展情况

▲英特尔10nm工艺相对14nm工艺的改进


最后英特尔也给出了2张图片用于展示工艺的进步。第一张图显示在45nm工艺下为100平方毫米的芯片,在10nm工艺下只有7.6平方毫米,这是工艺的巨大进步。另一张图片显示10nm工艺的动态电容比14nm工艺低,但是就晶体管性能而言,14nm++依旧是最出色的,10nm和10nm+都无法超越14nm++的水平。

▲英特尔展示22nm、收束之地14nm和10nm工艺下三栅极晶体管的栅极情况。

总的来说,目前英特尔所给出的任何10nm产品都基于早期的10nm工艺,新的Ice Lake大规模量产时间被放在了2019年底,将采用10nm+的工艺生产。这意味着2019年12月的产品可能在单纯衡量晶体管的性能参数方面要落后于2017年10月的14nm++,好在芯片面积会降低很多,这将是一个显著的优势。

▲英特尔展示近年来工艺的进步

Sunny Cove

架构多重升级我和师娘雷雨中的孽缘

英特尔在处理器的微架构方面分为两个不同的部分进行更新,其中一个是通用性能提升,另一个则是特殊用途性能提升。其中,通用性能提升部分包含的是微架构增强,比如性能提升、能效比提升、频率增加、IPC提升等,这部分内容提升主要是通过更深(每个时钟更多指令并行)、更宽(每个时钟能够执行更多指令)和更智能(前端更出色的数据传输能力)的架构来实现。特殊性能提升主要是通过其他的一些加速方法,比如增加新的指令集、软件升级、库升级或者专用的IP等来改进特定方案中的负载情况,从而达到性能的提升。

令人欣喜的是,Sunny 星际之未婚先孕Cove的架构升级同时包含了通用性能提升和特殊性能提升。根据目前英特尔给出的信息来看,已经完成了其中几项工作——包括增加缓存容量,使得核心更宽、增加了L1带宽等。下面本文将分项目来介绍。

首先来看缓存,Sunny Cove的核心后端具有48KB L1数据缓存,比通常的32KB缓存增大了50%。瓦希库尔一般来说,缓存增加会带来指令未命中率的减少,并且呈平方根关系。在这种情况下,理论上L1数据缓存未命中率会降低22%。此外,Sunny Cove的Core和Xeon版本的L2大小也有增加,目前是256KB和1MB,具体增加多少会在未来公布。

除了缓存外,micro-op也就是uOp部分的缓存也较之前的2048-entry有所增加,但是没有公布具体数据。第二级TLB缓存大小也增加了,这将有助于存储更多的最近地址数据。一般来说,需要保存和存储更多的查找数据时,TLB的容量就显得比较重要了。这说明哈尔滨留学生萨沙女友英特尔发现原有的设计中,部分近期地址由于TLB容量不够被删除后又重新提交了需求,因此增大TLB有助于降低这种情况发生的概率,同时降低延迟并提高性能。

英特尔还给出了更多架构上的细节改进。比如执行端口数量从8增加到了10,允许一次从调度指令中获得更多的指令并提交给执行端口。端口4到端口9连接循环数据存储后,带宽也加倍了,同时AGU也翻倍,更大的一级指令缓存也能起到一部分作用。

▲Sunny Cove的架构更深

值得一提的是,在之前的Skylake上,当所有的3个AGU都开始存取地址时,每个时钟桑林未晚周期只能处理一个请求,因此存在潜在的性能瓶颈,改进后这样的问题将会被缓解。重新排序缓冲区的调度,现在每个周期可以执行5个指令,之前的Skylake只能执行4个。不过Skylake的解码器和uOp缓存分别是4到5,因此新的架构应该会在前端做一些调整,这部分内容还需要英特尔进一步说明。

▲Sunny Cove的架构宽度大大增加

在执行端口方面,Skylake和Sunny Cove也存在巨大差异。通过对比差异可知,英特尔为Sunny Cove的整数部分配备了更多的LEA(有效地址载入)单元以帮助进行内存寻址计算,这可能有助于需要频繁访问内存地址的情况下,通过内存的安全机制来改善性能损失或者是帮助具有恒定偏移的高性能阵列提高性能。乘法单元MUL从Skylake的端口1转移到了Sunny Cove的端口5,可能是用于重新平衡计算压力的需求,同时还增加了一个整数除法单元—这个变化已经出现在现有产品中。

▲对比Sunny Cove和Skylake的前端执行部分

目前的Cannon Lake也增加了一个64位的整数除法单元,它可以将64位整数除法计算所需要的97个时钟周期时间降低至18个周期,因此这里的设计可能是类似目的。此外在整数方面,端口5的MUL单元目前已经变更为MULHi单元,其他的一些架构中,这个单元可以将结果的一部分留在徒弟很抢手寄存器中以供下次使用,但是出现在Sunny Cove中还不知道目的是什么。

说完了整数单元部分,再来看看浮点单元方面。浮点方面,Sunny Cove增加了重排序资源,因为一些客户要求这样的功能用于消除代码中存在的瓶颈。英特尔没有在这里解释FP单元部分有关FMA的功能实现情况,但是现有信息显示英特尔设计了AVX-512单元,因此FMA单元应该有一个接口用于连接AVX-512单元。现有的Cannon Lake只有一个512位的FMA,可能延续到了Sunny福五鼠之风云再起 Cove上。在更强的 Xeon处理器上,FMA单元可能是2个。

除了上述部分外,英特尔给出的其他部分改进还包括分支预测器的改进,减少有效负载延迟。英特尔同时承认,这些改进并非会立竿见影地生效,还需要新的算法和软件支持。

在专业计算的改进方面,由于AVX-512单元的加入,因此新的Sunny Cove内核将支持IFMA指令以更好地进行大数据算数计算和加密计算。同样,Sunny Cove还加入了针对Vector-AES和Vector Carryless Multiply的支持,提供SHA和SHA-NI指令以及Galois Field指令的支持,这都是密码学所需要的一些基本计算模式。

Sunny Cove的其他一些改变还包括支持更大的内存容量,主内存分页表现在使用了5层设计(之前是4层),支持线性寻址空间高达57位,物理寻址空间高达52位。这意味着服务器处理器理论上可以支持每个插槽4TB的内存,而目前Skylake-SP架构只能支持1.5TB,AMD的霄龙最多只能支持2TB,更大的内存对专业计算来说是非常有用的。Sunny Cove也是首个自2003年以来,在虚拟内存寻址上作出重大改革的架构。

目前英特尔在会议上披露的内容只是Sunny Cove架构改进的一部分,英特尔可能会在接下来的学术会议或者发布会上公布这些内容。

第11代图形引擎

大幅度提升游戏性能,支持自适应同步

有关英特尔的核芯显卡,很多独显用户只是将其看作亮机卡或者认为其可有可无,毕竟目前的英特尔核芯显卡性能跟不上时代。因此在Sunny Cove上,英特尔引入了第11代图形引擎,将针对性能和功能做出改进,让玩家使用核芯显卡也可以更为流畅地玩到游戏。

值得一提的是,英特尔目前已经发布的核芯显卡在第9代集成至Skylake处理器之后,后面的几代产品比如Kaby Lake或者Coffee Lake只拥有第9.5代核芯显卡。第10代核芯显卡本来要搭配Cannon Lake处理器,但是英特尔从未发布过集成核芯显卡的Cannon Lake处理器,英特尔的路线图上第10代产品也没有出现。根据路线图,核芯显卡直接进入了第11代,将会和基于Sunny Cove架构的CPU配对销售。

英特尔公布了第11代核芯显卡GT2的配置情况。从图中来看,GT2级别的核芯显卡拥有64个执行单元,远远高出9.5代的24个。这64个EU单元被分成4个模块,每个部分又由2个包含8个EU单元的子模块组成。每个子模块配备了指令缓存和3D采样器,每个模块配备了2个媒体采样器、Pixel FE和额外的加载、存储硬件。

▲第11代图形引擎在显示方面的改进

英特尔没有介绍新的EU如何提高性能,不过表示EU内部的FPU接口经过重新设计,并且仍然支持2x FP16功能。每个EU像之前一样支持7个线程,这意味着GT2将拥有512个并发管道。为了更好地利用这些并发管道,英特尔表示它重新设计了内存接口,并且将GPU的L3增大到了3MB,比Gen 9.5增加了4倍。

▲第11代图形引擎在3D管线方面做出了一些改进

在渲染技术方面,第11代核芯显卡支持基于片块的渲染技术,这和英伟达或者AMD这样的主流GPU是不同的,更类似于PowerVR这样的移动GPU。新的GPU还支持多速率着色,这个技术和英伟达近期提出的可变像素着色基本相同,允许GPU在图像画面中那些不会被视觉关注到的地方采用比基础着色比率更小的着色进行填充,从而节约性能。

英特尔还为这个功能做出了一些演示,比如物体较远的时合米金服候会降低着色比率。英特尔宣称这个功能可以带来大约30%的游戏帧率提升,不过这项技术需要针对游戏进行适配,因此不太可能在短期内就获得明显的收益。

在媒体部分,英特尔表示第11代核芯显卡包括一个基本的HEVC编码器,具有高质量的编码和解码能力,英特尔同时称其媒体相关的固定功能单元已经在数据中心被用于视频处理,家庭用户自然也可以使用相同的硬件。未来,英特尔将支持并行解码器,可以支持并发视频流,也支持组合起来的单个大数据流,这种可扩展、可拆分的设计将使得硬件编解码支持的分辨率最高可以达到8K,甚至更高。

▲第11代图形引擎在媒体方面的改进

新的核芯显卡的另一个亮点在于提供了自适应同步技术的支持,也就是AMD和英伟达宣传了多年的屏幕刷新率和GPU输出帧奔星暖气片数的同步。目前Adaptive Sync技术已经成为了标准,三大显糙组词卡厂商都提供了对这个技术的支持,这对用户来说是一个利好。其他方面,新的核芯显卡支持HDR技术,还支持新的Type-C接口,后者可能用于金艺贞输出视频,也可能用于连接VR设备等。

英特尔在发布会上还进行了第11代核芯显卡和之前第9代核芯显卡的对比演示,考虑到规模的巨大提升,11代核芯显卡的整体性能表现还是可以接受的,运行速率更为流畅。当然更多的细节测试只有等产品发布了才能揭晓。

Ice Lake登场

全新处理器上线

前文讨论了有关新工艺、新架构和新的核芯显卡的相关内容,也谈到了有关路线图的相关信息。而将这一切集合在一起并呈现在最终用户面前的,就是代号为Ice Lake的处理器家族。Ice Lake处理器是英特尔首个10nm处理器,它将涵盖移动、桌面、企业用户、高性能用户等多个目标市场。

和之前一样,英特尔最先推出的Ice Lake处理器是面向移动设备的Ice Lake-U系列,首款产品具体型号为Core i3-8121U。目前还不知道英特尔为何将其归类为八代酷睿,可能是考虑到这是10nm首秀且存在市场平滑过渡的原因。

▲令人惊讶的是用于移动市场的Core i3-8121U处理器突然出现,它被证明采用了Sunny Cove架构且基于10nm工艺打造,这是它的正面照片。

从英特尔针对Ice Lake-U相关产品的布局来看,其基础设计包含了2个或者4个CPU核心,64个EU单元的核芯显卡(Core i3-8121U为2个CPU核心,GT2核芯显卡的配置)。英特尔表示,为了获取更高的性能,他们正在进一步优化第11代核芯显卡的相关驱动程序。同时,英特尔也宣称这是首款具有1TFLOPS性能的集成显卡。

▲Ice Lake开发板照片

硬件方面,英特尔可能会为移动处理器配备LPDDR4X显存颗粒。因为在图形部分,由于GT2核芯显卡的规模大幅度提升,因此对数据带宽的需求大增,至少需要50GB/s。在这种情况下,如果要避免内存系统成为瓶颈,那么双通道情况下英特尔至少需要选择LPDDR4X-3200规格的内存,在这种规格下的内存带宽为51.2GB/s。通常英特尔对内存规格的支持都很保守,比如目前英特尔最高支持DDR4 2933,所以如果处理器有需要,内存支持加强也是可以理解的,这显示了英特尔在核芯显卡定位何浩明保健按摩机上的一些改变。

在连接方面,当安装了英特尔的CRF模块时,Ice Lake芯片将通过CNVi接口启用Wi-Fi(802.11ax),另外预计雷电3接口也可以通过USB Type-C接口转接。在摄像头支持方面,英特尔重新设计了相机支持的相关界面,笔记本电脑不再需要MI舌害第二季PI转USB就可以直接支持摄像头了。

全新的英特尔独立显卡

Xe登场

英特尔在独立显卡上已经努力奋斗了多年,还经历了数次失败。这一次英特尔挖到了不少业内大牛,包括AMD和英伟达的一些图形技术专家。在发布会上,英特尔公布了旗下独立显卡的品牌,并宣布将在2020年推出这款名为Xe的独立显卡。

在之前的一些讨论中,Xe是指英特尔第12代图形产品,但实际上英特尔认为这个市场应该分开处理,Xe将涵盖从核芯显卡(集成)到数据中心的广大市场,英特尔希望提供从入门级到发烧级,再到AI的一整个系列的GPU产品和竞争对手(大家都知道是谁)展开全面的竞争。

在技术方面,英特尔宣称新的显卡将采用英特尔的10nm工艺。同时借助英特尔的单堆栈软件理念,用户将利用英特尔的CPU、GPU、FPGA和AI相关产品组成一套开发设备,而不再需要其他厂商产品的加入。Xe的设计将为后面数代产品奠定基础,并且英特尔也准备好围绕着新的品牌进行一整个的技术开发和市场营销活动。此外,也有一些消息显示,英特尔的Xe品牌将有可能用于FPGA和AI产品。

▲英特尔宣布新的独立显卡品牌Xe,旗下产品分为桌面和商用两部分,将面向从入门级用户到发烧级玩家,以及数据中心、AI等多个细分市场。

总的来看,2019年的英特尔正在酝酿着一次巨大的变化,无论是制造、架构还是产品规划上,都将有全新的突破,这样的变化在英特尔几十年的发展历程中都可以排在前北部湾五大优惠政策列。从2019年开始的这次技术突破,甚至将影响到2020年乃至更远期的技术发展情况,值得媒体与DIY爱好者持续关注。