采用创新的FPGA 器件来实现更经济且更高能效的大模型推理解决方案

时间：2024-06-11 20:07:11

接纳器件来加快LLM 功能，在运转 Llama2 70B 参数模子时，Speedster7t FPGA 若何与 GPU 解决计划相媲美？证据是使人服气的——Achronix Speedster7t FPGA经由过程供应计较才能、内存带宽和卓越能效的最好组合，在处置大型言语模子（LLM）方面体现卓越，这是现今LLM庞杂需要的基础请求。

像 Llama2 如许的 LLM 的倏地进展正在为天然言语处置（NLP）开发一条新路线，有望供应比以往任何时间都更像人类的交互和懂得。这些庞杂的 LLM 是立异的催化剂，推动了对进步前辈硬件解决计划的需要，以餍足其麋集处置需要。

咱们的基准测试突出了 Speedster7t 系列处置 Llama2 70B 模子复杂性的才能，重点存眷 FPGA 和 LLM 功能。这些测试（可根据请求供应效果）表现了Achronix FPGA关于但愿将LLM的壮大性能用于其NLP使用步伐的开辟职员和企业的后劲。这些基准测试展示了 Speedster7t FPGA 若何逾越市场，供应无与伦比的功能，同时下降运营本钱和环境影响。

Llama2 70B LLM 运行在 Speedster7t FPGA 上

2023 年 7 月，Microsoft 和 Meta 推出了他们的开源 LLM，Llama2 首创了 AI 驱动言语处置的新先例。Llama2 接纳多种设置设想，以餍足种种计较需要，包孕 700 亿、130 亿和 700 亿个参数，使其处于 LLM 立异的最前沿。Achronix和咱们的分工火伴 Myrtle.ai 对700亿参数的Llama2模子进行了深刻的基准阐发，展示了应用Speedster7t FPGA举行LLM加快的上风。

基准测试效果：Speedster7t FPGA 与业界当先的 GPU 比照

咱们在 Speedster7t FPGA 上测试了 Llama2 70B 模子的推理功能，并将其与当先的 GPU 进行了比拟。该基准测试是经由过程对输出、输入序列长度（1,128）和批处理巨细 =1 举行建模来实现的。效果注解，Speedster7t AC7t1500在LLM处置中的有效性。

FPGA 本钱基于由 Speedster7t FPGA 供应支撑的 VectorPath 加速卡的标价。异样，咱们在此阐发中使用了可比GPU卡的标价。应用这些本钱信息和每秒发生的输入令牌数目，咱们计算出基于 FPGA 的解决计划的 $/token 提高了 200%。除了本钱上风外，在比拟 FPGA 和 GPU 卡的相对于功耗时，咱们观察到与基于 GPU 的解决计划相比，发生的 kWh/token 提高了 200%。这些上风注解 FPGA 若何成为一种经济且能效高效的 LLM 解决计划。

面向 LLM 的 FPGA：Speedster7t 的上风

Achronix Speedster7t系列FPGA旨在优化LLM操纵，均衡LLM硬件的关头请求，包孕：

高性能计较 – 拥有高性能计较才能的尖端硬件关于治理 LLM 推理焦点的庞杂矩阵计较相当首要。

高带宽内存 – 高效的 LLM 推理依赖于高带宽内存，经由过程模子的网络参数倏地奉送数据，而不会涌现瓶颈。

扩大和顺应才能 – 当代 LLM 推理需求可以或许跟着模子范围的增进而扩大并灵巧顺应 LLM 架构的继续前进的硬件。

高能效处置 – 可继续的 LLM 推理需求硬件可以或许最大限度地进步计较输入，同时最大限度地下降能耗，从而下降运营本钱和环境影响。

Speedster7t FPGA 供应如下性能，以应答实行当代 LLM 处置解决计划的挑衅：

计较功能– 经由过程其灵巧的机械进修处理器（MLP）模块支撑庞杂的 LLM 使命。

高 GDDR6 DRAM 带宽 – 确保以 4 Tbps 的内存带宽倏地处置大型 LLM 数据集。

少量的 GDDR6 DRAM 容量 – 可包容 Llama2 等扩大的 LLM，每一个 FPGA 的容量为 32 GB。

用于 LLM 的集成 SRAM – 供应低耽误、高带宽的存储，拥有 190 Mb 的 SRAM，异常适宜存储激活和模子权重。

多种本机数字花样 – 顺应 LLM 需要，支撑块浮点（BFP）、FP16、bfloat16 等。

高效的片上数据传输 – 2D NoC 跨越 20 Tbps，简化片上数据流量。

扩大横向扩大带宽 – 支撑多达32个112 Gbps SerDes 餍足 LLM 需要，加强连贯性。

自适应逻辑级可编程性 – 应用 690K 6 输出 LUT 为 LLM 的倏地进展做好预备。

针对 LLM 推理优化的 FPGA

在倏地变迁的野生智能和天然言语处置畛域，应用 FPGA 而不是 GPU 来加快 LLM 是一个至关新的设法主意。该基准测试展示了设想职员若何从应用Achronix的FPGA手艺中受害。Achronix Speedster7t系列FPGA是这一变迁的关头手艺，在高性能、高带宽存储器、易于扩大和电源服从之间完成了卓越的均衡。

基于细致的基准阐发，将 Speedster7t FPGA 与当先的 GPU 在处置 Llama2 70B 模子方面的才能举行比拟，效果注解 Speedster7t FPGA 可以或许供应高水平的功能，同时大大下降运营本钱和环境影响，突出了它在将来 LLM 创建和应用中的首要感化。

假如但愿进一步懂得若何应用FPGA器件来加快您的LLM步伐，以及 FPGA 加快 LLM 解决计划的将来进展机缘，请联络Achronix，猎取细致的基准测试效果，并帮助您肯定Achronix 手艺若何加快您的LLM设想。

锐单商城拥有海量元器件数据手册、IC替代型号，打造电子元器件IC百科大全！

采用创新的FPGA 器件来实现更经济且更高能效的大模型推理解决方案

相关文章