锐单电子商城 , 一站式电子元器件采购平台!
  • 电话:400-990-0325

新型的FPGA器件将支持多样化AI/ML创新进程

时间:2024-03-28 20:07:07

近日举行的GTC大会把野生智能/机械进修(/ML)领域中的算力比拼又带到了一个新的高度,这不只是说了然通用(GPGPU)时期的光降,而是包孕GPU、和NPU等一众数据处置加速器时期的光降,就像GPU以更高的计较密度和能效胜出CPU同样,种种加快器件在分歧的AI/ML使用或许细分市场中将各具上风,将来并非只需贵的而是更需要对的。

这次GTC上新推出的用于AI/ML计较或许大模子的B200芯片有一个显著的特色,它与传统的图形衬着GPU大相径庭并与上一代用于AI/ML计较的GPU很不同样。在其他算力器件种类中也是云云,AI/ML计较尤其是推理使用需求一种专为高带宽事情负载优化的新型FPGA,上面咱们以Achronix的Speedster7t FPGA芯片为例来看看手艺的演进偏向,以及在实践推理使用中揭示进去的在性价比和能效比等方面优于进步前辈GPU的特点。

先来倏地看看Speedster7t的产物亮点:该器件集成为了800K到1500K等效逻辑单位以及326K到692K 6输出查找表(LUT),高达120T算力的机械进修处置单位(MLP),同时还配备了高性能存储和I/O接口,以及最高可达190Mb的嵌入式存储容量。在内部连贯接口安排上,Speedster7t包括16个GDDR6通道,可提供高达4 Tbps的高速存储带宽;32对SerDes通道,支撑1-112Gbps的数据速度;4个400G以太网端口(4× 400G或16× 100G)和2个PCIe Gen5端口,支撑16通道(×16)和8通道(×8)设置。

Achronix的Speedster7t FPGA芯片被用户觉得异常适宜AI/ML推理原因是: 足够的算力,灵巧可配的计较精度;高带广大容量低成本的GDDR6(4Tbps带宽, 32GB容量);革命性的全新二维片上网络(2D NoC)路由架构;灵巧通用的芯片间互联; 支撑用户基于该芯片开辟自定义的推理体系,比方单板多片FPGA甚至少板互联以构成更高功能(如1TBbps/64GB,2TBbps/128GB, 4TBbps/256GB…等更高带宽和更大容量的计较存储)以支撑更大或超大模子推理安排。

简而言之,相比传统的推理算力平台,Speedster7t FPGA能够供应更高性价比和能耗比的大模子推理才能; 此外,在传统的FPGA处置性能中,越来越多的用户在该体系中到场机械进修的才能, Speedster7t FPGA能很好胜任传统FPGA性能和高性能机械进修融会在一起。

一类立异性的高性能FPGA系列产物

Achronix Speedster®7t系列FPGA基于革命性的FPGA架构,该架构经过了高度优化供应了高速、高带宽表里连贯,能够餍足日趋增进的野生智能/机械进修、网络密集型和数据加快使用的需要。Speedster7t系列FPGA芯片拥有一个革命性的全新二维片上网络,以及一个针对野生智能/机械进修举行优化的高密度的机械进修处置单位阵列。经由过程将FPGA的可编程性与近似ASIC路由架构和计较引擎相结合,Speedster7t系列提高了高性能FPGA的规范。

全新的二维片上网络(2D NoC)供应ASIC级别的功能

Speedster7t系列FPGA芯片拥有革命性的2D NoC,可在全部FPGA逻辑阵列中传输数据,并将数据传输到高性能I/O和内存子系统,同时可提供高达20 Tbps的总带宽。凭仗2D NoC,在Speedster7t FPGA芯片不需要损耗任何可编程逻辑资本的情形上去举行数据传输。在该芯片上的2D NoC供应了20 Tbps的二维片上网络总带宽;该2D NoC不但覆盖了芯片全域,并且还连接到各类高速接口和总带宽高达4 Tbps的高速存储接口。

高速接口

无论是支撑输出和输入的数据流,仍是存储缓冲这些数据,关于高性能计较、机械进修和硬件加快解决计划而言,都需要在片内和片外传输数据。Speedster7t系列FPGA芯片的架构可支撑前所未有的带宽。包孕:

400G以太网:Speedster7t系列FPGA芯片支撑多达4个400GbE端口或16个100GbE端口,经由过程2D NoC连接到FPGA逻辑。

PCI Express Gen5:Speedster7t系列FPGA芯片配备了多个PCle Gen5接口,支撑速度达32GT/s。

存储接口:GDDR6 + DDR4/5

Speedster7t器件是唯一在片上支撑GDDR6存储器的FPGA,以最低的DRAM本钱(每存储位)供应最快的SDRAM造访速率。Speedster7t系列FPGA芯片拥有高达4 Tbps的GDDR6带宽,以很低的本钱便可供应相当于基于HBM的FPGA存储器带宽。Speedster7t系列FPGA芯片包孕了DDR4/5存储器接口,以支撑更深刻的缓冲需要。PHY和控制器支撑由JEDEC标准界说的所有规范性能。

机械进修处置单位

每一个Speedster7t FPGA器件都拥有可编程的数学计较单位,这些单位被集成至全新的机械进修处置单位(MLP)模块中。每一个MLP都是一个高度可设置的计较密集型模块,拥有多达32个乘法器/累加器(MAC),支撑4到24位整数花样和种种浮点模式,包孕Tensorflow的bfloat16花样以及高效的块浮点花样,大大提高了功能。

MLP模块包孕慎密集成的嵌入式存储器模块,以确保机械进修算法将以750 MHz的最高功能运转。这类高密度计较和高性能数据传输的连系作育了高性能机械进修处置布局,该布局可提供市场上基于FPGA的极高TOPS级别运算才能(TOPS即Tera-Operations Per Second,每秒万亿次运算)。

图中笔墨解释:Register File - 寄存器文件,Fracturable Adder/Accumulator - 可拆分的加法器/累加器,Float MAC - 浮点乘累加单位(MAC),Memory Cascade in - 存储器级联,Operand Cascade in - 操作数级联。

设想对象支撑

Achronix Tool Suite对象套件是一个支撑所有Achronix硬件产物的对象链。它可与行业规范的逻辑综合和仿真对象连系应用,从而使FPGA设想职员可以或许轻松地将其设想映射到Speedster7t FPGA器件中。Achronix Tool Suite对象套件包孕Synopsys的Synplify Pro的优化版本和Achronix Snapshot调试器。Achronix仿真库由Siemens EDA的ModelSim、Synopsys的VCS和Aldec的Riviera-PRO供应支撑。

预测:在推理等畛域赞助开发者打造综合功能优于进步前辈GPU的使用

跟着/ML手艺在各个畛域开端普遍走进使用,Achronix依据Speedster7t FPGA器件的高性能和高带宽特点,抉择了推理这一个使用面异常广的手艺市场偏向,与分工火伴加大了在Speedster7t FPGA器件上的推理算法和IP的研发,以期赞助更多的立异者完成打破。

该芯片供应了足够的算力,并应用其片上搭载的二维片上网络(2D NoC)和机械进修处置单位(MLP),种种高速接口和GDDR6高带宽存储接口,供应了用于大规模推理使用需求的计较器件表里连贯、硬件加快和存储挪用等新技术,从而能够支撑开发者快速去完成立异。

这个计谋取得了显著的结果,此中一个畛域是加快主动言语辨认(ASR)解决计划,它由搭载Speedster7t FPGA器件的VectorPath加速卡供应支撑,运转Myrtle.ai供应的基于Achronix FPGA的ASR IP,从而供应业界当先的、及时的、超低耽误的语音转文本性能。运行在服务器中的单张VectorPath加速卡可替换多达20台仅基于CPU的服务器或10张GPU加速卡。

Speedster7t FPGA的手艺立异为野生智能推理带来了更高性价比和更高能效比以及能够让用户开辟自定义的推理硬件平台和体系。 在ASR实践功能方面,其卓越的超低单词错误率和唯一最进步前辈GPU解决计划八分之一如下的端到端耽误(包孕了预处理和后处理以及与CPU做数据交互的时候倾覆了ASR畛域。该解决计划能够规范机械进修框架应用垂直使用特定的或自定义的数据举行定制从新锻炼关于越来越多其余的推理使用,Speedster7t FPGA首创高带宽架构认为这些使用供应无力支持。Achronix正在经由过程不息研发美满对象使用生态,将在2024年推出更好对象赞助种种推理使用开辟浩繁的用户加倍便捷应用Speedster7t 器件或许VectorPath加速卡完成性价比晋升,而不用去争抢紧俏的高性能GPU加速卡。

锐单商城拥有海量元器件数据手册IC替代型号,打造电子元器件IC百科大全!

相关文章