从苹果 M1 到英伟达 Grace,“缝合风”为何在芯片大厂中盛行?
时间:2023-02-24 10:30:00
作者 | 马超
出品 | CSDN(ID:CSDNnews)
历史不会简单地重复,但总是惊人地相似。以前在电影、游戏和其他文化领域流行的缝合风似乎是正确的IT界芯片设计师产生了影响。黄仁勋在英伟达最新发布会上发布的Grace CPU Superchip,其实用两块Grace CPU粘在一起形成的爆裂作品。
而苹果春晚上发布的M1 Ultra同样的配方,同样的套路,他们直接把两块M1 Max拼这样,一个新的伟大芯片诞生了。
当然,作者对这种缝合作品没有偏见。毕竟,像原神这样的作品在上市之初也被指责为缝合怪物,但这并不影响米哈游目前的大杀四方,这让来自各国的粉丝疯狂氪金。然而,这种缝合芯片的流行实际上是缺芯浪潮的持续影响,因为科技行业忙于眼前的生存,缺乏创新动力,对新设计和新理念缺乏信心,在这种情况下,考虑到原来的M1 Max它取得了巨大的成功,台积电的制造经验也成熟了。将两个成熟的芯片粘在一起的风险远小于制造新芯片。
事实上,这种缝合风来自苹果的第一代M1开始了,只是初代M1目标是把CPU、GPU、内存缝合在一起,因为使用的是片内存,所以理论上M1系列全族芯片不支持内存扩展,只能更换CPU、GPU一起打包更换。当然,缝合方案的影响不止于此。我们来分析一下这种芯片缝合方案的具体情况。
内存带宽极高,CPU和GPU超强的通信能力
由于内存完全由芯片集成,内存与CPU之间的通信不需要通过主板转手,所以目前我们可以看到英伟达Grace CPU内存带宽可以达到惊人的每秒1TB,而苹果M1 Ultra更不用说让步了,每秒800GB的成绩。这是我们一般主板接入内存的普通X86玩家无法想象的效果,可见甩了主板这个中间商之后,其实内存的速度还是可以打的。
另外由于M1系列缝合芯片内存,GPU都是由CPU统一管理,即共享内存和显存,可以大大提高CPU与GPU提高图像处理和3的通信效率D处理建模等任务的效率。由于英伟达Grace还没有投入生产,具体细节也不多,所以我们继续用苹果来分享这部电影带来的加成效果M以苹果初代为例M只有161显存和内存加在一起G,而M1前一代的Mac Pro内存是128G,光显存就有和M1持平16G,不过搭载M1的入门版Mac在进行图像处理等任务时,但是比上一代顶配Mac要强近一倍。本次发布M1 Max直接将内存带宽提升到初代M1的6位,其性能增强的程度也可想而知。
英伟达最近发布处理器中用到的缝合技术NVlink,事实上,它采用了与苹果类似的想法。英特尔和英特尔和英特尔在未来不会被排除在外AMD也会跟进,未来内存很可能不再是一个单独的组件,集成也将是一种趋势。
AI算力史诗级提升,元宇宙可期
在AI在优化方面,未来似乎是主流Tensor也就是说,矢量的主流格式正在FP32向FP8。在英伟达最新的显卡H在100中,主矢量格式已经明确了FP8了。
不管是AI最基本的计算单元是矢量,无论是元宇宙概念。以深度神经网络为例,神经元可以抽象为信号强度乘积加总,用于输入矢量乘以权重ReLU、Sigmoid应用激活函数调整的本质是将输入数据乘以权重矩阵和激活函数。对于三个输入数据和两个完全连接神经元的单层神经网络,输入和权重需要乘以六次,经典CNN中无论GEMM使用矩阵乘法运算或卷积地乘加计算FP32是用32位字长的数字来表示的。在这种情况下,如果我们能使用它FP8作为输入表示这个过程,其计算量至少可以下降75%。特别是在图像处理场景中,通常是由FP32到FP如果方案得当,8的转换精度损失低于1%。特别是在图像处理场景中,通常是由FP32到FP如果方案得当,8的转换精度损失低于1%。所以是针对FP8类计算加速是业界讨论的话题。
因为英特尔是去年引进到强三代的VNNI已经针对FP8.据笔者所知,我国某大厂实时生成用户3D在头像模型的应用中,VNNI在精度降低1%的支持下,性能也提高了4.23倍。在英伟达的新闻发布会上,黄仁勋的说法也是FP投了关键一票。
RISC自带光环,超级译码器
目前,处理器的装配线一般分为取指、译码、操作数等环节,其中译码是一个非常重要的环节。译码器方面ARM架构精简指令集确实有一定的优势,因为指令是固定的,可以制作高效的多路译码器来提高效率。据作者所知,前一代M1应该是四路译码,目前M1 MAX和Ultra都是6路指令解码器,8μop发射宽度、6路分配、10路执行端口指标。但是英特尔和AMD如果你想使用缝合方案,你需要实现图像M1 Ultra这么强的译码器,但是因为X86指令集变长,所以X86芯片的译码器一般先按短码翻译,遇到错误再返工,在相同的功耗下很难达到很强的译码效率。
未来趋势-打破指令集之间的墙
在英特尔IDM 2.0战略中有一个重要的原则,那就是打开大门,全面接收各种芯片的订单。同时,我们也可以考虑将各种不同指令集的核心集成到同一芯片中,这可能是最终的缝合目标,即英特尔可以在同一芯片中使用CPU当大核,ARM的CPU当小核,AMD的显卡当GPU神奇组合。
去年英特尔发布的这一趋势Alder Lake处理器中搭建的Thread Director端倪已经显现在上面。Thread Director就是这样一个软硬结合的核心调度方案,英特尔的做法是在处理器中集成一个特殊的MCU,用于监控当前处理器内核的运行,可以监控每个线程的特性,如操作什么样的指令集、性能要求等。收集信息后,MCU将收集到的信息反馈给操作系统,再次将这些信息与线程调度信息结合起来,判断线程是否应转移到其他核心。如果与操作系统相结合,一轮调度信息收集只需30微秒,而传统方案调度器可能需要100多毫秒才能判断结论。据了解,Alder Lake上集成的调度使用MCU就是RISC-V核心,一切都是如此美妙。
世界趋势是长期的,所以缝合芯片,也符合芯片行业的发展趋势,但如何在虚拟云环境中缝合处理器,为不同用户提供服务,严格隔离也可能困难,但可以肯定的是英伟达、英特尔和苹果的连续平台,缝合芯片的未来。