锐单电子商城 , 一站式电子元器件采购平台!
  • 电话:400-990-0325

采用创新的FPGA 器件来实现更经济且更高能效的大模型推理解决方案

时间:2024-06-11 20:07:11

接纳 器件来加快LLM 功能,在运转 Llama2 70B 参数模子时,Speedster7t FPGA 若何与 GPU 解决计划相媲美?证据是使人服气的——Achronix Speedster7t FPGA经由过程供应计较才能、内存带宽和卓越能效的最好组合,在处置大型言语模子(LLM)方面体现卓越,这是现今LLM庞杂需要的基础请求。

像 Llama2 如许的 LLM 的倏地进展正在为天然言语处置(NLP)开发一条新路线,有望供应比以往任何时间都更像人类的交互和懂得。这些庞杂的 LLM 是立异的催化剂,推动了对进步前辈硬件解决计划的需要,以餍足其麋集处置需要。

咱们的基准测试突出了 Speedster7t 系列处置 Llama2 70B 模子复杂性的才能,重点存眷 FPGA 和 LLM 功能。这些测试(可根据请求供应效果)表现了Achronix FPGA关于但愿将LLM的壮大性能用于其NLP使用步伐的开辟职员和企业的后劲。这些基准测试展示了 Speedster7t FPGA 若何逾越市场,供应无与伦比的功能,同时下降运营本钱和环境影响。

Llama2 70B LLM 运行在 Speedster7t FPGA 上

2023 年 7 月,Microsoft 和 Meta 推出了他们的开源 LLM,Llama2 首创了 AI 驱动言语处置的新先例。Llama2 接纳多种设置设想,以餍足种种计较需要,包孕 700 亿、130 亿和 700 亿个参数,使其处于 LLM 立异的最前沿。Achronix和咱们的分工火伴 Myrtle.ai 对700亿参数的Llama2模子进行了深刻的基准阐发,展示了应用Speedster7t FPGA举行LLM加快的上风。

基准测试效果:Speedster7t FPGA 与业界当先的 GPU 比照

咱们在 Speedster7t FPGA 上测试了 Llama2 70B 模子的推理功能,并将其与当先的 GPU 进行了比拟。该基准测试是经由过程对输出、输入序列长度 (1,128) 和批处理巨细 =1 举行建模来实现的。效果注解,Speedster7t AC7t1500在LLM处置中的有效性。

FPGA 本钱基于由 Speedster7t FPGA 供应支撑的 VectorPath 加速卡的标价。异样,咱们在此阐发中使用了可比GPU卡的标价。应用这些本钱信息和每秒发生的输入令牌数目,咱们计算出基于 FPGA 的解决计划的 $/token 提高了 200%。除了本钱上风外,在比拟 FPGA 和 GPU 卡的相对于功耗时,咱们观察到与基于 GPU 的解决计划相比,发生的 kWh/token 提高了 200%。这些上风注解 FPGA 若何成为一种经济且能效高效的 LLM 解决计划。

面向 LLM 的 FPGA:Speedster7t 的上风

Achronix Speedster7t系列FPGA旨在优化LLM操纵,均衡LLM硬件的关头请求,包孕:

高性能计较 – 拥有高性能计较才能的尖端硬件关于治理 LLM 推理焦点的庞杂矩阵计较相当首要。

高带宽内存 – 高效的 LLM 推理依赖于高带宽内存,经由过程模子的网络参数倏地奉送数据,而不会涌现瓶颈。

扩大和顺应才能 – 当代 LLM 推理需求可以或许跟着模子范围的增进而扩大并灵巧顺应 LLM 架构的继续前进的硬件。

高能效处置 – 可继续的 LLM 推理需求硬件可以或许最大限度地进步计较输入,同时最大限度地下降能耗,从而下降运营本钱和环境影响。

Speedster7t FPGA 供应如下性能,以应答实行当代 LLM 处置解决计划的挑衅:

计较功能– 经由过程其灵巧的机械进修处理器 (MLP) 模块支撑庞杂的 LLM 使命。

高 GDDR6 DRAM 带宽 – 确保以 4 Tbps 的内存带宽倏地处置大型 LLM 数据集。

少量的 GDDR6 DRAM 容量 – 可包容 Llama2 等扩大的 LLM,每一个 FPGA 的容量为 32 GB。

用于 LLM 的集成 SRAM – 供应低耽误、高带宽的存储,拥有 190 Mb 的 SRAM,异常适宜存储激活和模子权重。

多种本机数字花样 – 顺应 LLM 需要,支撑块浮点 (BFP)、FP16、bfloat16 等。

高效的片上数据传输 – 2D NoC 跨越 20 Tbps,简化片上数据流量。

扩大横向扩大带宽 – 支撑多达32个112 Gbps SerDes 餍足 LLM 需要,加强连贯性。

自适应逻辑级可编程性 – 应用 690K 6 输出 LUT 为 LLM 的倏地进展做好预备。

针对 LLM 推理优化的 FPGA

在倏地变迁的野生智能和天然言语处置畛域,应用 FPGA 而不是 GPU 来加快 LLM 是一个至关新的设法主意。该基准测试展示了设想职员若何从应用Achronix的FPGA手艺中受害。Achronix Speedster7t系列FPGA是这一变迁的关头手艺,在高性能、高带宽存储器、易于扩大和电源服从之间完成了卓越的均衡。

基于细致的基准阐发,将 Speedster7t FPGA 与当先的 GPU 在处置 Llama2 70B 模子方面的才能举行比拟,效果注解 Speedster7t FPGA 可以或许供应高水平的功能,同时大大下降运营本钱和环境影响,突出了它在将来 LLM 创建和应用中的首要感化。

假如但愿进一步懂得若何应用FPGA器件来加快您的LLM步伐,以及 FPGA 加快 LLM 解决计划的将来进展机缘,请联络Achronix,猎取细致的基准测试效果,并帮助您肯定Achronix 手艺若何加快您的LLM设想。

锐单商城拥有海量元器件数据手册IC替代型号,打造电子元器件IC百科大全!

相关文章