锐单电子商城 , 一站式电子元器件采购平台!
  • 电话:400-990-0325

GPU深度分析2

时间:2023-04-06 23:07:00 4x21继电器模块

1.全球GPU市场规模和市场趋势

2020年全球GPU市场价值预计为254.预计2027年将达到1853亿美元.年平均增长率为32亿美元.82%。按GPU市场可分为独立、集成和混合。2019年,集成GPU占GPU但由于混合,市场处于主导地位GPU同时拥有集成和专用GPU因此,混合细分市场预计将实现最高复合增长率。

按GPU设备划分,市场可细分为计算机、平板电脑、智能手机、游戏机、电视等。在收入方面,智能手机细分市场所占比例最大,未来将保持这一趋势。然而,由于医疗和其他小型设备GPU需求不断增加,预计未来年复合增长率将最高。

按GPU市场可以细分为电子行业IT与电信、国防与情报、媒体与娱乐、汽车等有关。GPU广泛应用于设计和工程,预计汽车细分行业年复合增长率最高。

按GPU市场可细分为北美、欧洲、亚太等地区。2019年,亚太地区领先世界GPU预计市场将在整个预测期保持主导地位。


▲全球GPU市场规模预测


▲2015-2025全球前三GPU供应商总收入

2.全球GPU市场竞争格局

全球GPU已进入寡头垄断格局。GPU市场排名前三Nvidia、AMD、Intel几乎可以代表整个收入GPU行业收入。英伟达的收入占56%,AMD英特尔占26%和18%。

手机和平板电脑GPU联发科、海思麒麟、三星Exynos的GPU设计以公版为基础ARM MaliGPU或PowerVR微架构。高通骁龙Adreno苹果A系列采用自研GPU微架构。

2019Q2,ARM、高通,苹果,Imagination英特尔是世界五大智能手机和平板电脑GPU供应商ARM Mali在以上五大GPU供应商中占43%的市场份额,高通Adreno苹果占36%,苹果占12%。

3.全球GPU领导:英伟达

英伟达成立于1993年,并于1999年率先推出GPU图形解决方案。公司主要设计游戏和专业市场GPU,移动计算和自动驾驶汽车SoC,是GPU被公认为计算领域的全球领导者。它主要的GPU产线“GeForce”和AMD的“Radeon形成直接竞争。同时,为了拓展移动游戏平台,英伟达推出了掌机Shield、Shield平板、Shield电视盒和云游戏服务GeForce Now。目前,公司已完成从芯片供应商向计算平台的转型。

英伟达的四大增长驱动力分别是游戏业务、数据中心业务、专业视觉业务、自动驾驶业务,各业务的代表性GPU方案分别是GeForce,DGX、EGX、HGX,Quadro、AGX。

英伟达2021财年收入167亿美元,其中游戏、数据中心、专业视觉和自动驾驶业务分别贡献了2020财年收入的47%、40%、6%和3%。2014年毛利率突破50%后,公司2021财年毛利率突破60%。

英伟达的游戏业务:由GeForce和Shield组成。其中Shield面向移动端和云,GeForce面向PC。游戏笔记本和云游戏是公司拓展市场的两大方向。GeForce是英伟达游戏业务的核心。GeForce拥有2亿多玩家的全球最大游戏平台。在PC在游戏领域,英伟达的收入是其他主要领域GPU供应商的三倍多。GeForce已经来到了RTX30系列采用第二代NVIDIA RTX架构-NVIDIA安培架构,全新RT Core、Tensor Core和流式多处理器RTX游戏、DLSS、G-SYNC、DirectX12等先进技术,能带来逼真的光跟踪效果和先进AI性能。

除了PC在游戏市场,英伟达也向合作伙伴任天堂Switch主机提供定制版Tegra SoC。作为合作的一部分,Shield主机可以享受任天堂的游戏,GameStream串流游戏和热门游戏实现4KHDR图片质量,支持百度DuerOS对话人工智能。

英伟达数据中心业务的技术根源是CUDA(设备架构统一计算)。CUDA2006年首次推出G属于通用并行计算架构的80核心创建了GPGPU。在安培时代,CUDA核心已经进化到8.0,几乎所有的英伟达产品线都被使用。

CUDA兼容DirectCompute、OpenCL等待计算接口Direct3D、OpenGL等高级图形API相比,CUDA可以让开发者更容易使用GPU资源。CUDA既代表广义GPU以硬件平台为代表GPU软件平台。

硬件平台,CUDA包含了CUDA指令集以及GPU内部的并行计算引擎。GPU如平台矢量运算INT、FP32、FP64都由CUDA承担。开发人员可以使用C语言和Fortran语言为CUDA编写程序。

基于软件平台CUDA的CUDA-X加快库、工具和技术的集合,对接不同行业的应用需求。在英伟达的软件栈系统中,分为CUDA-X AI和CUDA-X HPC,分别面向AI和HPC在人工智能和高性能计算方面,这两个领域可以提供远远超过其他竞争产品的性能。CUDA-X已有100多万开发者。

适用于英伟达数据中心的产品包括AI的DGX系统适用于边缘计算EGX适用于超算的平台HGX适用于数据处理的平台、平台DPU、简化深度学习、机器学习、高性能计算NGC目录。相关的GPU加速器采用安培架构A100、A40.使用图灵架构T4、RTX6000、RTX8000,伏特架构V100。

在过去的五个财年中,英伟达数据中心的收入从8.3亿美元升至66美元.96亿美元,年复合增长69%。同时,公司注册开发商超过200万,与谷歌、腾讯、阿里等主要云供应商建立了供应关系,世界500强的份额从6%上升到70%。

英伟达的专业视觉业务主要由英伟达组成Quadro产品线组成。Quadro在GeForce加强了基础NVLink、GPU具有通用计算性能和显存容量Iray、Omniverse平台、材料定义语言等独特技术。Quadro广泛应用于台式工作站、笔记本电脑、EGX在服务器、虚拟工作空间、云、定制方案中。英伟达Quadro该方案拥有50多个应用程序、4000万设计用户和2000万企业用户,并不断解新市场。

在过去的五个财年里,英伟达的专业视觉收入从8开始.35亿美元上升到100亿美元.53亿美元,年复合增长6%。


▲英伟达专业视觉GPU加快合作伙伴

英伟达的汽车产品包括相关的驾驶软件、驾驶基础设计AGX该平台提供培训、模拟、智能驾驶舱体验、高清地图和定位等解决方案。在绝对性能方面,有4个Drive AGX Origin的蔚来ADAM支持超算平台L自动驾驶自动驾驶,超过7辆特斯拉FSD算力总和。

与特斯拉追求软硬件的自动驾驶不同,英伟达的计划更加开放。该公司在汽车领域的合作伙伴大多拥有软件服务和汽车,分别达到76家和42家。同时,公司与大众、丰田、本田、奔驰、宝马、奥迪、沃尔沃、马卡、滴滴、采埃孚、威莱、小鹏、图森等世界知名公司建立了强大的生态系统。

在过去的五个财年里,英伟达自动驾驶的收入从4开始.87亿美元升至5亿美元.36亿美元,年复合增长3%。

英伟达并购ARM:2020年9月13日,NVIDIA宣布以400亿美元收购ARM。本次收购的意义可分为以下五个方面:

  1. 创造AI世界级的时代计算公司,英伟达领先AI计算平台和ARM庞大的CPU生态结合;
  2. 通过英伟达在移动通过英伟达PC科技拓展等大型终端市场ARM的IP授权组合;
  3. 加速ARM的服务器CPU、数据中心,边缘AI、IoT发展;
  4. 将英伟达计算平台的开发者从200万增加到1500多万;
  5. 并购可以立即增加英伟达的非GAAP毛利率和非GAAP每股收益;

合并后,英伟达将从云、智能手机、PC、将自动驾驶汽车和机器人技术推广到边缘物联网,将AI计算扩展到全球,加快创新,同时扩大大规模、高增长的市场。

4.全球GPU先驱:AMD

AMD唯一能同时提供高性能的世界GPU和CPU的企业。AMD来自2006年并购的显卡ATI科技。在接下来的四年里,AMD继续使用ATI直到2010年,AMD才抛弃原ATI品牌命名方式。

目前,AMD同时提供独立GPU和集成GPU,其集成GPU主要运用在Ryzen APU、在嵌入式和半定制平台中,独立GPU分为Radeon和Instinct该系列主要用于游戏、专业视觉、服务器等应用。

过去六年,AMD计算和图形收入的收入为18.05亿美元升至644亿美元.32亿美元,年复合增长29%。

未来五年,AMD该计划成为高性能计算的领导者,提供颠覆性CPU和GPU方案。

AMD的集成GPU主要用于台式机和笔记本APU产品中,和CPU构成异构运算单元。台式和笔记本APU的GPU部分共用微架构和核心技术GPU的主要差异在于TDP与处理单元的数量相比,台式强于笔记本。

“Renior”APU的GPU继续使用Vega由于7纳米工艺,每个处理单元的效率显著提高。

7纳米Vega改进包括:数据网络翻倍,低功耗状态转换优化,主频25%,存储位宽77%。这些改进带来了15%的维护W在功耗不变的前提下,每个计算单元的性能提高59%,1.79TFLOPS32位浮点峰值吞吐。

在3DMark Time Spy(DX12)跑分,7纳米Ryzen 4800U的GPU超过10纳米i7-1065G7,是14纳米i7-10710U的2倍以上。

AMD的Radeon独立的系列游戏GPU按微架构推出时间依次递减RX6000系列、RX5000系列、Radeon 7、 RX500系列。除上述四个系列外,RX台积电7纳米制程用于500系列外。

2020年11月推出的RDNA与前代相比,微架构RDNA绝对性能提高一倍,能效提高54%,支持DirectX12 Ultimate,先进技术,如硬件光跟踪和可变速率着色器。配备16GBGDDR6显存和128MB Infinityache高速缓存的RX 6900XT的游戏性能接近英伟达的RTX 3090。

为了发挥AMD CPU和GPU的协同效应,Radeon拥有AMD SmartAccess Memory技术,锐龙CPU和显卡之间能实现更出色的通信。RX6800系列显卡在部分游戏中4K画质性能额外提升最高可达7%。

2022年前,AMD将基于更先进的制程打造RDNA3微架构,进一步强化光追等计算表现。

除了传统的BGA显存封装,AMD还积极运用HBM系列显存。在Radeon7中,16GB的HBM2显存拥有1TB/S的带宽,超过同期Titan RTX 50%。

AMD的数据中心GPU业务由Radeon Instinct加速器系列、以客户为核心的数据中心解决方案和ROCm组成。AMD的主要合作伙伴包括戴尔、惠普等OEM,同时AMD也向微软AZURE和亚马逊网络服务提供视觉云解决方案。

ROCm是全球首个针对加速式计算且不限定编程语言的超大规模开源平台,遵循UNIX的选择哲学、极简主义以及针对GPU计算的模块化软件开发。

ROCm适合大规模计算,支持多路GPU,有丰富的系统运行库,包括框架、库、编程模型、互联和Linux Kernel上游支持,提供各种重要功能来支持大规模应用、编译器和语言运行库的开发。

AMD正与美国能源部、橡树岭国家实验室和Cray公司合作,使用EPYC(霄龙)CPU、Radeon Instinct GPU和ROCm打造超过150亿亿次FLOPS的全球最快超算平台。


▲AMD ROCm开源软件生态

Radeon Instinct MI 100加速器采用专注计算的CDNA微架构,在计算和连接方面实现了巨大飞跃,与AMD上一代加速器相比,高性能计算工作负载(FP32矩阵)性能提升近3.5倍,而人工智能工作负载(FP16)性能提升近7倍。InstinctMI 100在FP32和FP64的峰值TFLOPS中超越了同期英伟达安培A100,同时功耗比后者低100瓦。

为了满足多路GPU的互联通讯需求,AMD研发了InfinityFabric技术。Infinity Fabric拥有先进的平台连接性和可拓展性,最多支持4路GPU互联。P2P带宽是PCIe 4.0的2倍,四GPU集群的P2P带宽最高可达552GB/s。

未来,AMD将基于更先进的制程打造CDNA2微架构,进入百亿亿级时代。

AMD的其他独立GPU主要包括嵌入式、半定制化、Radeon Pro工作站显卡。半定制化独立显卡主要倍运用在索尼、微软的本世代和次世代主机中。如今,AMD的技术存在于2.2亿个家庭畅享游戏和视频娱乐时所用设备的核心。

嵌入式GPU的特点包括卓越的图形性能、多屏显示、外形紧凑、高能效、长期供货。嵌入式GPU分为超高性能嵌入式GPU、高性能嵌入式GPU、高能效嵌入式GPU,它们主要使用14纳米的GCN 1.4北极星微架构,TDP覆盖20W-135W范围。

Radeon Pro系列显卡被广泛应用于建筑工程、设计制造、媒体娱乐等领域,拥有AMD远程工作站、AMD Eyefinity多屏显示技术、AMD Radeon ProRender等技术。Radeon Pro系列采用Vega微架构,7或14纳米制程,直接竞争对手是英伟达的Quadro系列。Radeon Pro移动和台式工作站的合作伙伴包括苹果、戴尔、惠普等。

5.英特尔:全球GPU追赶者

英特尔是全球最大的PC GPU供应商,也是PC和服务器显卡唯一的IDM厂商。英特尔的GPU最早可以追溯到1998年的i740,但是由于羸弱的性能和缓慢的更新速度,一直没有非常大的起色。进入Core i时代后,英特尔通过将核芯显卡和CPU进行捆绑销售,利用CPU的庞大市场份额,确立了公司在集成GPU领域的寡头垄断地位,在此过程中AMD的APU一直是酷睿的直接竞争对手。

2020年,英特尔推出了第12代GPGPU,采用全新的Xe微架构和10纳米Super Fin制程。相较于第11代核显,Xe-LP在保持电压不变的前提下,大幅提升主频,能效显著提高。搭载Xe-LP的i7 1185G7在GPU性能方面已经超过同期AMD的Vega核显和英伟达的MX系列独显。

Xe系列可以细分为,集成/低功耗的Xe-LP、娱乐/游戏的Xe-HPG、数据中心/高性能的Xe-HP、高性能计算的Xe-HPC。

目前,Xe-LP的集成版本已经被第11代酷睿所采用。Xe-LP的移动独立GPU版本DG1和服务器独立GPU版本SG1也已发布。独显版在核显版的基础上进一步提升主频,并加入了128位4GB LPDDR4X-4266独立显存,单精度浮点算力提升15%。

英特尔的集成GPU在形式上表现为核芯显卡。核芯显卡使用系统DRAM作为非独立显存,通过处理器内部的环状总线与CPU连接,负责处理游戏、视频娱乐等图像负载。

英特尔Xe核显借助10纳米SuperFin的优势,将处理单元最高提升至96个,相较于Icelake的64个提升了50%,并且将连接CPU和GPU的总线带宽提升一倍,独立最终缓存(LLC)提高50%,支持最高86GB/s的存储带宽。以上这些提升使i7-1185G7的3DMark跑分较前代i7-1065G7提升接近一倍,超过AMD的R74800U和同期英伟达的MX350。

Xe核显的显示引擎和媒体引擎也都得到加强。接口方面,内部支持双eDP,外部支持DP1.4、HDMI2.0、雷电4、USB4 Type-C。画质方面,支持8K、HDR10、12比特BT2020色域、360赫兹刷新率等。

英特尔Xe核心显卡和CPU经由自家One API驱动中间层框架和上层应用。英特尔One API解决了编码模型在不同微架构间的壁垒,最大化跨平台表现和最小化开发成本。

目前,锐炬Xe MAX是第一款基于英特尔 Xe 架构的面向轻薄型笔记本电脑的GPU。锐炬Xe MAX在Xe集成GPU的基础上增加了4GBLPDDR4X-4266的独立显存,TDP 25W,峰值主频1650MHz,单精度浮点性能2.46TFLOPs。锐炬Xe MAX可以和11代酷睿处理器、锐炬Xe GPU同时工作。借助英特尔Deep Link技术,获得具有强大性能和经过功耗优化的集成系统,以改进创造力和游戏体验。

目前,英特尔服务器GPU在Xe核显的基础上,TDP提升到23W,增加了8GB LPDDR4的独立显存,支持高密度、低延迟的安卓云游戏和高密度媒体转码/编码,以实现实时的OTT视频直播。同时,英特尔服务器GPU支持2颗、4颗独立GPU的聚合,成倍提高性能。

未来,英特尔还将推出面向游戏和高性能桌面的Xe HPG产品线,增加了光线追踪等硬件支持,采用传统封装,外包生产。英特尔服务器GPU将使用Xe HPC、Xe HP微架构,采用2.5D和3D先进封装,10纳米SuperFin及更先进自家或外包工艺。

6.ARM Mali:全球GPU IP巨头

ARM是全球最大的半导体IP提供商。全世界超过95%的智能手机和平板电脑都采用ARM架构。2019Q2,全球近43%的手机和平板GPU由Mali驱动。2020第四季度,ARM半导体合作伙伴基于ARM技术的芯片出货量达到67亿颗,再创历史新高,超过其他所有流行的CPU指令集架构—X86、ARC、Power、MIPS的总和。

国产SoC中,有95%是基于ARM处理器技术,ARM中国授权客户超过150家,基于ARM架构的国产芯片出货量已经超过184亿。

ARM的Mali GPU按性能可以分为3大类,分别是高性能、主流、高能效。

Arm Mali-G78 GPU是用于高端设备的第二代基于Valhall架构的GPU。Mali-G78是性能最高的ArmGPU,可支持复杂的应用,例如适用于Vulkan和OpenCL等所有最新API的游戏图形和机器学习(ML)。

Mali-G78与上一代设备相比,GPU性能提高了25%,并增强了设备上的ML功能,从而有助于将高度复杂的游戏带入移动设备。Mali-G78最多支持24个内核,并包含异步顶级功能,可确保性能有效地分布在各个内核上,从而使图形运行更加流畅。全新执行引擎中的新型融合乘加(FMA)单元可进一步降低30%的单元能耗。

在GFXBench Aztec Ruin的跑分中,使用台积电5纳米工艺,搭载24个Mali-G78内核的麒麟9000 SoCGPU的帧数强于骁龙865的Adreno 650,但仍落后于苹果A14。

7.全球GPU巨头:Imagination

Imagination Technologies是一家总部在英国,专注于半导体和相关知识产权许可,销售PowerVR移动图形处理器,MIPS嵌入式微处理器和消费电子产品。公司还提供无线基带处理,网络,数字信号处理器,视频和音频硬件,IP语音软件,云计算,以及芯片和系统设计服务。2017年,董事会宣布公司被中资的Canyon Bridge收购。

Imagination在GPU领域历史悠久,在其超过25年的历史中,Imagination先后推出过多代GPU产品,已积累超过1500项GPU专利,曾为苹果供应图像处理器(GPU),在图像处理器(GPU)领域与高通、ARM三分天下,曾占GPU市场大约占据三分之一的份额,在汽车领域更是达到43%。带有Imagination IP的芯片产品累计出货量已超过110亿。

Imagination的IP包括图形处理器和视觉与人工智能2类。公司Power VR产品被广泛应用于移动设备(智能手机、平板)、汽车(仪表、信息娱乐、辅助驾驶)、沉浸式体验(AR/VR)、消费电子(电视、机顶盒)。

根据Imagination的GPU路线图,在A系列GPU性能最高提升2.5倍之后,B系列到D系列GPU的年复合增速在30%左右。2021年的C系列GPU将首次加入L4级别的光线追踪,从硬件层面支持一致性分类的层次包围体(BVH)和复杂光线处理,相比目前英伟达和AMD的L3级别光线追踪方案可显著提升能效,实现更好的用户体验。

2020年10月,Imagination推出了全新的IMG B系列GPU,这是公司第一个包含新多核架构的GPU IP系列,也是首次采用RISC-V,可提供最高的性能密度。得益于多核架构和Imagination图像压缩技(IMGIC),B系列相比A系列,功耗降低30%,带宽降低35%、面积缩减25%,AI算力达到24 TOPS,且填充率比竞品IP内核高2.5倍。与A系列相似,B系列GPU也支持AI协同技术,在提供图形处理功能的同时,可用备用资源来处理可编程AI等任务。

IMG B系列GPU共有IMG BXE、IMG BXM、IMG BXT、IMG BXS四种系列。其中IMG BXE面向高清显示应用,IMG BXM主打图形处理体验,IMG BXT面向高性能应用,IMG BXS面向未来汽车。

BXS系列符合ISO 26262标准,也是迄今为止所开发的最先进汽车GPU IP内核。BXS提供了一个完整的产品系列,从入门到高端,可为下一代人机界面(HMI)、UI显示、信息娱乐系统、数字驾舱、环绕视图提供解决方案。高计算能力的配置可支持自动驾驶和ADAS。

凭借核心可扩展的优势,IMG B系列适用于传统移动设备、消费类设备、物联网、微控制器、数字电视(DTV)和汽车等市场领域。IMG B系列也可扩展至桌面GPU、云端GPU服务器,且支持自动驾驶和辅助驾驶等。

8、高通Adreno:全球移动GPU先驱

高通的自研GPU Adreno源于收购的AMD移动GPU Imageon系列。早期的Adreno 100系列只有2D图形加速和有限的多媒体功能。2008年发布的Adreno 200是首款被集成到骁龙SoC中的GPU,并加入了3D硬件加速功能。

2020年12月,高通推出了搭载Adreno 660的骁龙888 SoC。Adreno 660继承了Adreno650的微架构,采用了三星5纳米LPE工艺,大幅提高主频,使图形渲染性能提高35%,能效提高20%。Adreno 660全面支持Qualcomm® Snapdragon Elite Gaming和Qualcomm® Game Quick Touch ,二者将可变速率渲染和响应速度分别提升30%和20%。

在GFXBench Aztec Ruin 1080P测试中,Adreno 660的峰值帧数追平麒麟9000,但相较苹果A14仍有近20%的差距。

9、苹果:全球移动GPU新秀

苹果的自研GPU首次出现于2017年的A11 SoC。A11的三核心GPU作为苹果的首款自研GPU,其性能超过采用Power VR GT7600+的A10 GPU 30%。其后,所有的A系列SoC的GPU均为苹果自研。

2020年,苹果推出了5纳米制程的M1芯片,该款SoC基于A14芯片,在CPU、GPU、NPU、缓存等各方面都进行了强化,用于驱动苹果的Mac产品。M1芯片的发布标志着苹果继2005年放弃IBM的PowerPC指令集转向Intel的X86指令集后的又一大PC领域转换。

采用8核GPU的M1拥有128个执行单元,可以同步运行近25000个线程,单精度浮点算力达到2.6 TFLOPs。M1 GPU的能效表现是当时同类PC中集成GPU的三倍,峰值性能最高可达其他GPU的2倍。

出品丨自主可控新鲜事

本文内容综合自方正证券、智东西等

锐单商城拥有海量元器件数据手册IC替代型号,打造电子元器件IC百科大全!

相关文章