作者 | ZeR0,编纂 | 漠影
Blackwell架构大揭秘!对话英伟达手艺高管+22页手艺呈报解读。
芯货色3月24日报导,现今全球身价最高的两位华人,一名卖铲,一名卖水。第一名是英伟达创始人兼CEO黄仁勋,靠给淘金者们卖GPU,把英伟达推上环球市值第三的宝座;另一位是农民山泉创始人、董事长兼总经理钟睒睒,凭“大自然的搬运工”笑傲饮用水江湖。
以后,英伟达市值曾经稳坐2万亿美圆大关,与苹果的市值差距缩小到0.3万亿美圆。
在本周英伟达GTC大会上,黄仁勋一本端庄地说:“咱们能够附带着卖热水。”这可不是句玩笑话,黄仁勋是有数据根据的:英伟达DGX新机的散热,液体进口温度是25℃,靠近室温;进口温度降低到45℃,靠近推拿浴缸的水温,流速是2L/s。当然了,比起卖水,GPU才是英伟达手里的印钞机。
人称“皮衣刀客”的黄仁勋,一贯拥有极强的危机感和危险认识,永远在提前为将来铺路。再加上行业是一个高风险高成本低容错的行业,一步走错,大概就会跌落神坛,满盘皆输。所以在需要绝后迸发、一众劲敌虎视眈眈的关头时辰,英伟达不敢在新品上有涓滴懒惰,幸免会在短期内打出最大迸发,让敌手们望尘莫及。当合作敌手们还在以追逐英伟达旗舰GPU为目的时,黄仁勋曾经站在next Level,捕捉到客户需要的痛点——单芯不顶事,真正顶事的是解决体系级功能和能效晋升的挑衅。
拿单个旗舰GPU比,英伟达的芯片确凿配得上“核弹”称呼,功能猛,功耗也高。但黄仁勋锋利在早就跳出芯片自身,不息向数据中央客户贯注“买得越多 免得越多”的理念,简而言之买英伟达的AI体系计划比其余计划更快更省钱。从Blackwell架构设想到AI根底办法的手艺结构,都能反应黄仁勋对将来市场需乞降行业趋向的前瞻性判别:
1、动员功能晋升愈来愈捉襟见肘,单die面积和快到极限,后续芯片迭代必需包孕高带宽内存、Chiplet、片内互联等手艺的立异组合。再加上片外互连等高功能的优化,配合构成为了英伟达打造出专为万亿参数级天生式AI设想的体系的根底。
2、将来,数据中央将被视为AI工场,在全部性命周期里,AI工场的目的是发生收益。不同于花费级市场单卖显卡,数据中央市场是个体系级买卖,单芯片峰值功能参考代价不大,把不少GPU组合成一个“巨型GPU”,使其在实现一致计较使命时花费更少的卡、时候和电力,对客户能力带来更大的吸引力。
3、AI模子的范围和数据量将继续增进:将来会用多模态数据来锻炼更大的模子;天下模子将大行其道,进修控制理想天下的物理纪律和知识;借助合成数据天生手艺,AI甚至能仿照人类的进修体式格局,遐想、思索、相互互相锻炼。英伟达的目的是不息下降与计较相干的本钱和能耗。
4、高性能推理或天生将相当首要。云端运转的英伟达GPU可能有一半时候都被用于token天生,运转少量的天生式AI使命。这既需求进步吞吐量,以下降办事本钱,又要进步交互速率以进步用户体验,一个GPU难以胜任,是以必需找到一种能在许多GPU上模子事情的要领。
01.最强AI芯片规格详解:最大功耗2700W,CUDA设置成谜
本周二,英伟达宣布新一代Blackwell GPU架构,不但决心弱化了单芯片的存在感,并且没有明确GPU的代号,而是费解地称作“Blackwell GPU”。这使得被公认遥遥当先的Blackwell架构几何笼上了一抹奥秘颜色。在GTC大会现场,英伟达副总裁Ian Buck和高等副总裁Jonah Alben向智货色&芯货色等环球媒体进一步分享了对于Blackwell架构设想的暗地里思索。
连系22页英伟达Blackwell架构手艺简报,对于GB200超等芯片、HGX B200/B100、DGX等的设置细节被进一步表露。依据现有信息,全新Blackwell GPU没有接纳最进步前辈的3nm制程工艺,而是连续相沿4nm的定制增强版工艺4NP,已知的芯片式子有3类——B100、B200、GB200超等芯片。
B100不是新宣布的配角,仅在HGX B100板卡中被说起。B200是重头戏,GB200又进一步把B200和1颗72核Grace 拼在一路。B200有2080亿颗晶体管,跨越H100(800亿颗晶体管)数目的两倍。英伟达没吐露单个Blackwell GPU die的详细巨细,只说是在reticle巨细尺寸限定内。上一代单die面积为814mm²。因为不知道详细数字,欠好计较B200在单元面积性能上的改良幅度。
英伟达经由过程NV-HBI高带宽接口,以10TB/s双向带宽将两个GPU die互联封装,让B200能像单芯片同样运转,不会由于通讯消耗而丧失功能,没有内存部分性问题,也没有缓存题目,能支撑更高的L2缓存带宽。但英伟达并无吐露它详细采用了怎么样的计谋。前代GH200超等芯片是把1个H100和1个Grace CPU组合。而GB200超等芯片将2个Blackwell GPU和CPU组合,每一个GPU的满配TDP达到1200W,使得全部超等芯片的TDP达到2700W(1200W x 2+300W)。
▲Blackwell GB200规格(图源:芯货色依据手艺简报表格译成中文)
值得存眷的是,Blackwell架构手艺简报仅披露了Tensor焦点数据,对CUDA核心数、Tensor核心数、向量算力等信息只字未提。除了FP64是浓密,其余数据花样都表现了稠密算力。
相比之下,规范FP64 Tensor焦点计较功能晋升幅度不大,H100和H200是67TFLOPS,GB200超等芯片是90TFLOPS,比上一代进步34%。一种大概的推想是Blackwell架构的设想周全倾向AI计较,对高性能计较的晋升不明显。假如晶体管都用于堆Tensor焦点,它的通用才能会变弱,更像个偏科的AI NPU。因为接纳沟通的根底办法设想,从Hopper换用Blackwell主板就像推拉抽屉同样便利。手艺简报披露了Blackwell x86平台HGX B100、HGX B200的体系设置。HGX B200搭载8个B200,每一个GPU的TDP为1000W;HGX B100搭载8个B100,每一个GPU的TDP为700W。
在数据中央Blackwell GPU宣布后,业界存眷核心移向异样基于Blackwell架构的游戏显卡RTX 50系列。今朝间隔RTX 50系列GPU的宣布日期还很悠远,最快也失掉往年年末,慢点大概要到来岁以至是后年。无非当初已经有不少对于设置的传言,比方接纳台积电3nm和28Gbps G 7显存、最大宽度有384bit和512bit两种说法,芯片包孕从入门级GB207到高端级GB202,会连续优化门路追踪、光芒追踪。
02.8年AI锻炼算力晋升1000倍,英伟达是怎样做到的?
从2016年Pascal GPU的19TFLOPS,到往年Blackwell GPU的20PFLOPS,黄仁勋发布英伟达用8年将单卡AI锻炼功能提升了1000倍。
这个听起来使人心潮磅礴的倍数,除了得益于制程工艺迭代、更大的HBM容量和带宽、双die设想外,数据精度的下降起到关头感化。
多半锻炼是在FP16精度下举行,但实际上不需要用这么高的精度去处置所有参数。英伟达一直在索求怎样经由过程混杂精度操纵来在下降内存占用的同时确保吞吐量不受影响。Blackwell GPU内置的第二代Transformer引擎应用进步前辈静态局限治理算法和细粒度缩放手艺(微型tensor缩放)来优化功能和精度,并首度支撑FP4花样,使得FP4 Tensor功能、HBM模子范围和带宽完成翻倍。
同时TensorRT-LLM立异包孕量化到4bit精度拥有专家并行映照的定制化内核,能让MoE模子及时推理应用花费、能量本钱。NeMo框架、Megatron-Core新型专家并行手艺模子锻炼功能晋升供应支撑。降精度的难点统筹用户对准确率需要。FP4并不在甚么时间无效,英伟特地夸大混杂专家模子言语模子带来优点。把精度降到FP4大概会有疑惑增添题目,英伟心肠加了个过渡的FP6,这个花样尽管没什么功能上风处置数据量比FP8缩小25减缓内存压力。