锐单电子商城 , 一站式电子元器件采购平台!
  • 电话:400-990-0325

【科普】Xilinx 3D IC技术简介

时间:2022-08-30 11:30:01 600v2000uf折机电容

Xilinx 3D IC技术简介


跨Die约束?SLR?SSI?这些是使用UltraScale /V7常见的概念,但这些概念到底是什么意思呢?有什么联系?让我们从根本上解释这些概念。


目录


  • 目录

  • SOC和NOC概念

  • 介绍

    • 互连多个FPGA的挑战

  • Xilinx SSI技术

  • 微泵用于叠层硅集成FPGA芯片

  • 带TSV的硅插入器

  • 异种模具的SSI技术

  • Virtex-7系列

  • 基于SSI技术的FPGA设计

  • 应用

  • SSI从概念到现实的技术

  • 跨SLR处理

  • 总结

  • 参考资料


SOC和NOC概念

传统的SoC现在很常见,现在用手机CPU采用这种方式,常见的结构如下:

多核间的通信问题已成为制约系统性能提高的主要瓶颈。

NOC这个概念已经提出很多年了,但是使用了总线IC相对较少,但近年来兴起RISC-V这条总线在未来可能会有更多的应用。NoC如图1所示,在单芯片上集成大量连接这些资源的片上通信网络,如图1所示。NoC计算子系统包括计算和通信两个子系统(图中由PE,Processing Element构成的子系统)完成广义的计算任务,PE既可以是现有意义上的CPU、SoC,也可以是各种特殊功能IP核或存储器阵列、可重构硬件等。通信子系统(图为图Switch组成的子系统)负责连接PE,实现计算资源之间的高速通信。由通信节点和互联网组成的网络被称为电影通信网络(On-Chip Network, OCN),它借鉴了分布式计算系统的通信方式,用路由和分组交换技术替代传统的片上总线来完成通信任务(参考:http://www.elecfans.com/d.html)。

通过以上两个总线基础,对于Xilinx采用的3D IC理解概念并不难。


介绍

参考:WP380

随着FPGA在系统设计中的地位越来越重要,设计越来越大和复杂,对逻辑容量和电影资源的要求也越来越高。到目前为止,FPGA摩尔定律主要依靠摩尔定律来满足这一需求,每一代新技术都能提供近两倍的逻辑容量。然而,摩尔定律远远不足以满足当今高端市场的需求。

FPGA最积极的技术用户渴望使用每一代FPGA容量最高、带宽最高的装置。然而,在产品生命周期的早期阶段,供应商建立了这种类型FPGA挑战可能限制其提供客户生产和运行所需设备数量的能力。这是因为实现可重编程技术的电路成本是最大的FPGA可制造性产生负面影响。在新工艺节点的早期阶段,当缺陷密度较高时,模具的成品率随着模具尺寸的增加而急剧下降。随着制造工艺的成熟,缺陷密度的降低,大型模具的制造能力显著提高。

所以,尽管最大FPGA当产品推出时,供应短缺,但随着时间的推移,它们的数量最终会满足最终客户的数量需求。为了满足可编程的需求,一些领先的客户Xilinx挑战,要求Xilinx产品推出后尽快使用最大的产品fpga支持其批量生产需求。

例如,电信市场需要集成数十个串行收发器FPGA,提供高信号完整性。设备还需要提供广泛的互连逻辑和块RAM,用于数据处理和流量管理,同时保持当前的外观尺寸和电源。为了获得先发制人的优势,设备制造商希望尽快增加新产品的制造。

Xilinx以创新的方式响应这些要求,构建带宽和容量等于或超过最大单片FPGA芯片的FPGA为了加快批量生产,芯片具有制造和上市时间较小的优势。SSI该技术实现了这些优点,使用带微泵的无源硅插入器和通过硅通孔(TSV)可以制造多个高度FPGA芯片(称为超级逻辑区)(SLR))组合在一个包装中。该技术还允许插入器上连接不同类型的芯片或硅工艺。这种结构称为异构FPGA。

互连多个FPGA的挑战

SSI技术解决了两个或两个以上的障碍FPGA结合互连逻辑,创建更大的虚拟设计FPGA尝试挑战。这些挑战包括:

?可用的I/O数量不足以连接复杂的信号网络,必须在分区设计FPGA之间的传递是不够的FPGA连接到系统的其余部分。

?信号在FPGA两者之间的延迟限制了性能。

?使用标准设备I/O在多个FPGA创建逻辑连接会增加功耗。

关键挑战:有限的连通性

片上系统(SoC)该设计由数百万个门电路组成,由多条总线、复杂的时钟分配网络和大量的控制信号组成。在多个FPGA成功划分之间SoC需要大量的设计I/O来实现跨越FPGA网络之间的间隙。由于SoC设计包括1024位宽的总线,即使是最高可用管脚数FPGA对于包装,工程师还必须使用数据缓冲和其他设计优化,这对于实现高性能总线和其他关键路径所需的数千条一对一连接效率较低。

造成这种封装技术I/O限制的关键因素之一。目前最先进的软件包约有1200个I/O引脚,远远低于所需的I/O总数。

在芯片级,I/O由于技术仍有另一个限制,因此技术仍有另一个限制I/O资源的扩展速度不同于每个新进程节点的连接逻辑资源。当与用于在FPGA与可编程逻辑资源的晶体管相比,构成器件的核心构建I/O晶体管的结构必须要大得多,以提供芯片到芯片I/O标准所需的电流和电压。因此,芯片片上增加标准I/o为多个组合提供的数量FPGA芯片连接不是可行的解决方案。

关键挑战:延迟过大

延迟增加多FPGA方法的另一个挑战。对于跨多个FPGA设计,标准设备I/O将管脚延迟到管脚,以降低整体电路性能。另外,标准I/O时域复用(TDM)通过在每个I/O在上面运行多个信号来增加虚拟管脚计数,这将带来更大的延迟I/O将速度降低4倍至32倍以上。对于这些减速ASIC原型设计和模拟通常是可以接受的,但对于最终的产品应用程序来说。

关键挑战:Power Penalty

TDM该方法还会导致更高的功耗。用于多个FPGA之间的PCB与单片芯片上的逻辑网络相比,标准设备驱动数百个封装连接到封装上I/O引脚功耗损失很大。

类似地,多芯片模块(MCM)技术集成在单个包装中FPGA芯片提供了减少形状因子的潜在优势。MCM方法仍然有限I/O计数以及不期望的延迟和功耗特性的限制。

关键挑战:高速串行连接的信号完整性

特别是高速串行I/O在通信应用中,信号完整性差可能成为实现设计关闭的主要瓶颈。FPGA必须提供适当的收发器信号保真度,否则必须花费无数的时间来优化I/O参数、修改PCB优化设计和实施渠道,取得成功。对于某些要求,线速超过25Gb/s为应用程序提供足够的信号完整性是一项非常重要的任务。


Xilinx SSI技术

克服这些限制,Xilinx构建高容量、高性能的新方法fpga产量。通过提供更多的连接,新的解决方案片之间的高带宽连接。FPGA或MCM与方法相比,它还具有较低的延迟和明显较低的功耗,同时可以在单个包装中集成大量的连接逻辑、收发器和片上资源。

在FPGA系列的密度范围内,中密度器件代表了“最佳点”。也就是说,与上一代设备相比,芯片尺寸提供的容量和带宽明显更大FPGA产品生命周期可以比同一系列中最大的设备更早交付。因此,在单个设备中组合多个此类芯片可以匹配或超过单个设备提供的最大容量和带宽,但具有制造和体积比小芯片的优点。

Xilinx以创新的方式应用了几种成熟的技术,从而实现了这样的解决方案。通过将TSV微泵技术及其创新ASMBL在系统结构方面,Xilinx构建新的FPGA,它提供容量、性能、能力和功率特性,以满足可编程的需要。通过无源插入器,Xilinx SSI多种技术结合FPGA。插入器为芯片提供数万个芯片连接,实现超高互连带宽,功耗低得多,延迟为标准I/O五分之一。图1显示四个FPGA SLR、侧视图堆叠硅插入器和包装基板芯片。

硅插入层最初是为各种芯片堆叠设计方法开发的,它提供了模块化设计的灵活性和高性能集成,适用于广泛的应用。以硅制造工艺为基础的硅插入器(例如65) nm或45 nm该工艺中的多芯片并排设置和连接的互连载体。SSI避免技术,因为多个技术FPGA芯片堆叠在彼此或MCM功耗和可靠性问题。与有机或陶瓷基板相比,在mcm在中间,硅插入层提供了更精细的连接几何结构(约20倍密集的线间距),以提供设备级连接层结构,并支持从1万多个管芯连接到管芯。


微泵用于叠层硅集成FPGA芯片片

Xilinx SSI技术的基础是公司专有的ASBL系统结构是一种模块化结构,包括可配置逻辑块(CLB)、块RAM、DSP片、SelectIO瓷砖形式等关键功能Xilinx FPGA构建块。SelectIO并串行收发器。这些资源被组织成列,然后组合起来创建一个FPGA。各种设备可以通过改变柱的高度和排列来满足不同的市场需求(图2)。FPGA生成时钟信号和用位流数据编程SRAM单元附加块,位流数据配置设备,实现用户最终期望的功能。

从基本的ASMBL系统结构结构开始,Xilinx支持堆叠硅集成的三个关键修改(见图3)。首先,每个芯片接收自己的时钟和配置电路。然后修改布线结构,使其绕过传统的并行和串行I/O电路通过芯片表面的钝化直接连接到FPGA逻辑阵列的布线资源。最后,每个单反相机都要经过额外的加工步骤来制造微泵,将芯片连接到硅衬底上。正是这一创新使得连接的数量大大增加,延迟大大降低,功耗也大大低于使用传统I/O(每瓦特的SLR到SLR连接带宽是标准I/O的100倍)。


带TSV的硅插入器

无源硅插入器将多个FPGA SLR互连在一起。它是建立在一个低风险,高产量的65nm工艺,并提供四层金属化建设数以万计的记录道,连接多个FPGA芯片的逻辑区域(图4)。

图5说明了组装好的芯片组的“X射线视图”的概念。它包含一个由四个FPGA单反并排安装在无源硅插入器上的堆栈(底视图)。插入器被显示为透明的,以便能够看到由硅插入器上的记录道连接的FPGA SLR(不按比例)。

TSV与可控折叠芯片连接(C4)焊点相结合,使Xilinx能够使用倒装芯片组装技术将FPGA/插入器堆栈安装在高性能封装基板上(见图1)。粗间距TSV提供了封装和FPGA之间的连接,用于并行和串行I/O、电源/接地、时钟、配置信号等。

这项SSI技术包括许多正在申请专利,通过10000多个设备规模的连接,提供每秒数TB的芯片间带宽,足以满足最复杂的多模设计。Xilinx正在使用这项新技术来支持Virtex-7 fpga家族的几个成员。


异种模具的SSI技术

除了在硅插入器上集成同质单反外,SSI技术还可以集成不同类型的芯片。在图6中,Virtex-7 H870T FPGA通过硅插入器将三个SLR以及单独的28G收发电路连接在一起。由于SLR和28Gb/s收发器电路代表不同的硅工艺和功能,Virtex-7HT FPGA是世界上第一个异构体系结构,它是由异构芯片并排放置组成的FPGA,可以作为一个集成设备运行。

将数字FPGA与收发器物理分离的关键好处之一是噪声隔离。这确保了尽可能低的抖动和噪声,以简化设计关闭和降低电路板成本。

将28G收发器与SLR分离是异构体系结构如何为特定应用实现最佳结果的一个示例。因为收发器是复杂的模拟电路,在单片设备上实现它们需要更复杂的设计方法。作为一个单独的片,28G电路是为最大可能的容量和最佳可能的性能和功率,而不损害数字逻辑的功能。

异构体系结构的另一个好处是能够为传统的FPGA资源提供不同比率的收发器。Virtex-7 HT FPGA具有多达16个28G收发器,实现了前所未有的集成,处于高带宽设计的前沿。


Virtex-7系列

表1所示的支持SSI的设备提供了前所未有的FPGA功能。这些设备提供多达:2000000个逻辑单元;68 Mb块RAM;5335gmacs的DSP性能;1200个SelectIO引脚,支持1.6Gb/s LVDS并行接口;2784Gb/s聚合双向带宽。

表1:Virtex-7 FPGA

FPGAs Part Numbers
Virtex-7 T XC7V585T、XC7V2000T
Virtex-7 XT XC7VX330T、XC7VX415T、XC7VX485T、XC7VX550T、XC7VX690T、XC7VX1140T
Virtex-7 HT XC7VH580T、XC7VH870T


基于SSI技术的FPGA设计

利用SSI技术,设计人员创建和管理单个设计项目。这是一个非常重要的优势,因为跨多个FPGA划分大型设计会带来许多复杂的设计挑战,这些挑战不适用于单片实现。

单片FPGA设计流程中的典型步骤包括:

•创建高级描述

•综合成与硬件资源匹配的RTL描述

•执行物理位置和路线

•估计时间并调整时间结束的设计

•生成bit流以编程FPGA

当使用多个FPGA时,设计人员(或设计团队)必须在整个FPGA中划分网络表。使用多个网表意味着打开和管理多个项目,每个项目都有自己的设计文件、IP库、约束文件、打包信息等。

多个FPGA设计的时序关闭也可能是非常具有挑战性的。

计算和调整通过板到其他FPGA的传播延迟带来了新的复杂问题。同样地,在多个FPGA中通过多个部分网表调试设计可能是极其复杂和困难的。

相比之下,SSI技术路由对用户是透明的。用户使用一个标准的合成和定时闭包流执行单个设计的启动和调试。为了加速集成和实现这种容量的设备(超过200万个逻辑单元),Xilinx引入了Vivado™ 设计套件-一个开发环境,旨在支持当前和未来的高容量设备。


应用

采用SSI技术的Xilinx-Virtex-7型FPGA突破了单片FPGA的局限性,在一些最苛刻的应用中扩展了其价值。例如,Virtex-7系列是下一代电信和网络系统的理想选择,在下一代电信和网络系统中,数十个串行收发器被用来实现灵活的,

单个FPGA解决方案。这些设备也非常适合在ASIC原型中使用,可以作为预生产和/或初始生产ASIC的替代品。Virtex-7系列还为科学、石油和天然气、金融、航空航天和国防以及生命科学应用提供灵活、可扩展、定制的高性能计算解决方案。FPGA架构中固有的并行性非常适合于高吞吐量处理和软件加速。对多种高速并行和串行连接标准的支持使计算和通信系统得以融合。在航空航天和国防领域,采用SSI技术的FPGA提供的高收发信机数量和数千个DSP处理元件使先进的雷达实现成为可能。


SSI技术-从概念到现实

Xilinx在创建SSI技术时采用的开发策略始于广泛的建模和随后创建的一系列测试设备或测试车辆,用于设计支持、可制造性和可靠性验证。

这些测试车辆和应力模拟模型显示了叠层硅技术的另一个优势。与单片解决方案相比,硅插入器起到了缓冲作用,降低了低K介电应力,提高了C4凸点可靠性。

对芯片堆热影响的大量模拟和研究表明,采用SSI技术的器件的热性能与单片器件相当。

经过近六年的广泛研究和开发,Xilinx于2011年9月推出了世界上容量最高的FPGA,Virtex-7 2000T器件,该器件采用SSI技术。2012年5月,Xilinx发布了世界上第一款异构设备Virtex-7 H580T,该设备采用28G收发器,针对Nx100G有线通信应用(见Xilinx新闻稿:http://press.xilinx.com/phoenix.zhtml?c=212763&p=RssLanding&cat=news&id=17 00586).


跨SLR处理

从上图看出跨SLR的长线数量是有限的,需要从一个SLR的特殊的地方有入口,需要先打拍从逻辑的FF在SLR内部走线到SLR的入口附近的FF,然后过这个长线到接收FF,然后再走线到真实的接收逻辑(群内大佬指点)。

所以跨SLR处理需要一个专门的寄存器打拍,每个SLR之间有一个专门用来跨die用的寄存器。


总结

作为唯一一家将SSI技术应用于超大容量和收发带宽FPGA的FPGA制造商,Xilinx在系统级集成领域取得了重大突破。SSI技术使Xilinx能够提供最高的逻辑密度、带宽和片上资源,并在每个进程节点以最快的速度实现批量生产。

使用SSI技术实现的FPGA进行设计要比另一种设计简单得多。灵活的工具流支持设计闭包自动化,同时允许用户交互以实现更高的性能。

Xilinx目前正在运送世界上容量最高的FPGA-Virtex-7 2000T设备,以及世界上第一个异构FPGA-Virtex-7 H580T,两者均采用SSI技术。有关更多信息,请访问www.xilinx.com/virtex7。

参考资料

https://www.xilinx.com/products/silicon-devices/3dic.html

https://www.xilinx.com/publications/white-papers/3d-ic-in-3d-fpgas.pdf

对于IC工艺上一些概念深入不多,如有问题,欢迎指正。

推荐阅读

【Vivado那些事】如何查找官网例程及如何使用官网例程

【Vivado使用误区与进阶】总结篇

【Vivado那些事】Vivado中常用的快捷键(二)其他常用快捷键

SystemVerilog数字系统设计_夏宇闻 PDF

图书推荐|ARM Cortex-M0 全可编程SoC原理及实现

简谈:如何学习FPGA

1202年了,还在使用虚拟机吗?Win10安装Ubuntu子系统及图形化界面详细教程

Github 上有哪些优秀的 VHDL/Verilog/FPGA 项目

AD936x+ZYNQ搭建收音机(一)

AD936x+ZYNQ搭建OpenWIFI

无招胜有招-Vivado非工程模式下的详细设计

追寻ARM的起源-Acorn电脑简史及FPGA实现

面试中经常会遇到的FPGA基本概念,你会几个?

Xilinx FPGA MIPI 接口简单说明

介绍一些新手入门FPGA的优秀网站

Vivado ML(机器学习) 2021尝鲜

推荐一些可以获取免费的国外的原版书籍(电子版)网站

【Vivado那些事】FPGA的配置方式

FPGA 的重构

浅析FPGA局部动态可重构技术

ISP(图像信号处理)算法概述、工作原理、架构、处理流程

国产CPU概括

浅谈PCI Express体系结构(一)

浅谈PCI Express体系结构(二)

从电子游戏历史看IC发展的助推剂

80年代电子游戏及电脑游戏的发展历史

PCIe总线的基础知识

万字长文带你回顾电子游戏的七十多年历史(完整版)

FPGA中异步复位,同步释放的理解

OpenFPGA系列文章总结

用Verilog设计一个16 位 RISC 处理器

介绍一些新手入门FPGA的优秀网站(新增)

点击上方字体即可跳转阅读

锐单商城拥有海量元器件数据手册IC替代型号,打造电子元器件IC百科大全!

相关文章