DDR4 设计概述以及分析仿真案例

时间：2022-09-06 20:00:00 电连接器的防呆结构防呆型电连接器 ddr4驱动电阻 ddr端接电阻电流

1.1

DDR4与DDR3 不同之处

相对于DDR3, DDR首先，外观上有一些变化，比如DDR4将内存下部设计成中间稍突出、边缘较短的形状，在中心高点和两端低点进行平滑曲线过渡。DDR4内存金手指的设计也发生了明显的变化，金手指中间的防震间隙也比DDR三靠近中央。当然，DDR一般来说，提高频率和带宽是最重要的使命，DDR性能更高，稳定性更好，功耗更低，那么从SI从以下几点来看，下一章解释了几个主要的不同点。

表1 DDR3和DDR4差异

1.2

POD 和SSTL的比较

POD作为DDR4新驱动标准最大的区别在于接收端的终端电压等于VDDQ，而DDR3所采用的SSTL接收端的终端电压为VDDQ/2。这可以减少寄生引脚电容和I/O即使是终端功耗，VDD当电压降低时，也可以稳定工作。其等效电路如图1所示(DDR4), 图2(DDR3)。

图1 POD ((Pseudo Open Drain)

图2 SSTL(Stub Series Terminated Logic)

可见，当DRAM在低电平状态下，SSTL和POD都有电流流动

图3 DDR4

图4 DDR3

而当DRAM在高电平状态下，SSTL和POD由于两端电压相等，没有电流流动。DDR四是省电的原因

图5 DDR4

图6 DDR3

1.3

数据总线倒置 (DBI)

以上描述为依据POD当数据为高电时，没有电流流动，因此降低了特性DDR4功耗的一个方法就是让高电平尽可能多，这就是DBI技术的核心。例如，如果在一组8-bit至少有5个信号-bit如果是低电平，所有信号反转至少5-bit信号为高电平。DBI信号变低意味着所有信号都被翻转了(DBI高信号意味着原始数据没有翻转)。在这种情况下，一组9个信号(8个信号)DQ信号和1个DBI在信号中，至少有五种状态较高，以有效降低功耗。

图7 DBI Example

1.4

ODT控制

为提高信号质量，从DDR2开始将DQ, DM, DQS/DQS#的Termination电阻内置到Controller和DRAM中, 称之为ODT (On Die Termination)。Clock和ADD/CMD/CTRL信号仍需要使用外接的Termination电阻。

图8 On Die Termination

在DRAM中，On-Die Termination等效电阻值通过Mode Register (MR)来设置，ODT参考电阻的精度RZQ来控制，DDR4的ODT支持240, 120, 80, 60, 48, 40, 34 欧姆。

和DDR3不同的是，DDR4的ODT有四种模式：Data termination disable, RTT_NOM,RTT_WR, 和 RTT_PARK。Controller你可以通过阅读和写作命令ODT Pin来控制RTT状态，RTT_PARK是DDR4新添加的选项通常用于更多Rank的DDR例如，在配置中Rank0, Rank1以及Rank2, 当控制器向Rank0写数据时，Rank1和Rank2.高阻抗可在同一时间内发生(Hi-Z)或较弱的终端(240，120，80，etc.), RTT_Park它提供了一种更灵活的终端方法Rank1和Rank2不需要一直是高阻模式，这样才能让DRAM工作频率更高。

一般来说，在Controller中可以通过BIOS调整寄存器进行调整ODT值，但部分Controller制造商不建议这样做Intel为例，Intel给出的MRC Code中国给出了最优化ODT理论上，用户可以通过仿真等方法获得其他值ODT值并在BIOS中修改，但由此产生的所有问题都将由设计制造商承担。下面表格是Intel提供优化方案。

表2 DQ Write ODT Table for 3DPC

表3 DQ Read ODT Table for 3DPC

1.5

参考电压Vref

众所周知，DDR一般通过比较输入信号和另一个参考信号（Vref）决定信号是高是低，但是DDR4中，一个Vref但是消失了。我们来看看下面两种设计。可以看出，在DDR4的设计中，VREFCA和DDR同样，使用外部分压电阻或电源控制芯片，但是VREFDQ在设计中却没有了，由芯片内部生产，既节省了设计成本，又增加了设计成本Routing空间。

图9 DDR3设计

图10 DDR4设计

DRAM内部VREFDQ通过寄存器(MR6)调整主要参数Voltage range, step size, VREF step time, VREF full step time，如下表所示。

表4 参考电压

每次开机，DRAM Controller通过一系列校准进行调整DRMA端输入数据信号VREFDQ，优化Timing和电压的Margin，也就是说，VREFDQ 不仅仅是VDD, 而且与传输线特性、接收端芯片特性有关，因此每次Power Up的时候，VREFDQ值可能会有所不同。

因为Vref的不同，Vih/Vil会有差异，可以调整ODT来看Vref用模拟的例子来解释区别。对于DDR3，调整ODT波形上下同步浮动，调整DDR4 OOT波形只有一边移动。

图11 仿真拓扑

图12 DDR3仿真结果

图13 DDR4仿真结果

1.6

DDR4 Layout Routing新方法

在所有的Layout走线中，DDR毫无疑问，这是最复杂的。不仅要考虑阻抗匹配，还要考虑长度匹配，还要考虑大量数据和地址线的影响。

DDR在数据速度提高后，这些方面的影响变得更加严重，特别是现在许多设计都是为了节约成本，PCB尺寸和层数应尽可能小，以便对阻抗和串扰的要求更具挑战性。一般来说，SI工程师和Layout工程师会想方设法满足这些需求，往往不得不妥协，比如做叠层设计时尽量减小线宽，在BGA Breakout区域采用更细的线等。但这些方法只能对设计整设计，但很难从根本上解决问题。但这些方法只能对设计整设计，但很难从根本上解决问题。Intel研究发现的一种新方法非常有趣，可以在一定程度上平衡阻抗(线宽)和串扰(线间距)。这里整理出来供大家参考。

先看一个实际的Layout例如，两条红线之间的布线呈锯齿状。是的，这就是Intel新研究的新方法的官方名称是“Tabbed Routing”。

图14 DDR4 Tabbed Routing

Tabbed Routing主要的方法是在空间比较紧张的区域（一般为BGA区域和DIMM插槽区)，减小线宽，增加凸起的小块（Tab）,如下图所示。

图15 Tab routing方法

该方法可以增加两条线之间的互容性，保持其电感特性几乎不变，增加的电容可以有效控制每层的阻抗，减少外层的远端串扰。模拟结果如下图所示。

图16 HFSS仿真结果

从仿真结果可以看出，这种方法确实可以平衡阻抗和远端串扰。当然，对于Tab根据实际尺寸，需要根据实际尺寸PCB详细的仿真设计，Intel还提供了一些Tool可参考。感兴趣的读者可以参考更多信息

2DDR4 Simulation

2.1

Pre-Simulation with HyperLynx

如果Controller和DRAM都有IBIS模型，可以用HyperLynx对DDR4进行很方便的Simulation, 仿真方法和其他DDR相同，通过Pre-Simulation, 可以对整个系统的拓扑以及一些细节进行确定，比如Impedance(由Stackup以及线宽和线间距来确定)，ODT值的选择，T型结构中Stub长度的控制，ADD/CMD/CTRL终端电阻的取值大小等等。

2.1.1 ADD/CMD/CTRL终端电阻取值

假设ADD电路如下，工作在2400MTs(Add/CMD为1.2Gbps)，发送端为U16,采用Fly-By结构到五组DRAM芯片，每组DRAM采用T结构（实际Layout中，Top面一个DRAM芯片，Bottom面一个DRAM芯片），T型长度的Stub为77mil, 终端电阻为32欧姆，终端电压为0.6V。

图17 ADD仿真拓扑

由仿真结果可以看出来，T型结构两端因为完全对称，所以波形几乎一样，为了方便观察，只看其中一个波形，离Controller由近及远，DRAM分别为U5, U4, U3, U2, U1, 其眼图分别如下：

可以看出来， 距离Controller越近的芯片，其波形越“乱”，但是上升沿却很快，而距离终端电阻越近的芯片，其波形越好，但是上升沿却变慢。那么如何才能得到最优化的波形呢，下面通过扫描终端电阻的值看看是否会提高信号质量，通过HyperLynx的Sweep功能，设置终端电阻阻值为27，33，39，45四个阻值。

图18 Sweep设置图19 Sweep设置

U5（距离Controller最近）的眼图如下，依次对应终端电阻阻值为27，33，39，45欧姆：

U4的眼图如下，依次对应终端电阻阻值为27，33，39，45欧姆：

U3的眼图如下，依次对应终端电阻阻值为27，33，39，45欧姆：

U2的眼图如下，依次对应终端电阻阻值为27，33，39，45欧姆

U1的眼图如下，依次对应终端电阻阻值为27，33，39，45欧姆

从上面的波形可以看出来，对应每一个DRAM的第三张波形都是最好的，也就是说对应39欧姆的终端电阻可以得到最优化的波形。

2.1.2 Data信号Stub的长度

一般DDR4的设计中，Data信号都采用Pin to Pin的设计方式，但在某些设计中，由于PCB空间限制或者控制器限制，也有需要采用一拖二的设计(T型结构)，在笔者所遇到的一个设计中，就遇到这种情况，综合考虑下面两种方案，如果采用T型拓扑结构，如图20所示，可以最大可能的节约PCB空间，但是如果DIMM0或者DIMM1只插一根的时候，另一边会有较长的Stub出现，对信号质量会有影响。如果采用菊花链结构，如图21所示，在只插DIMM0的情况下，同样会有Stub影响。而且这种拓扑结构需要DIMM0和DIMM1之间的信号线之间满足长度匹配，在DIMM0和DIMM1比较靠近的情况下，绕线会有一定难度。而如果增加DIMM0和DIMM1的距离，其Stub会变得更长，信号质量没有办法得到控制。从信号完整性方面考虑，两种方案均会存在Stub的影响，但是从Layout的角度来看，方案一有一定便利性，而且其Stub可以控制在500mil以内。所以最终选择方案一作为最终方案。当然，这种设计是以牺牲信号Margin作为代价的，信号速率会收到一定影响，在笔者的项目中，在只插一根内存的时候，信号速率最大只能跑到1866Mb/s.

图20 DDR4 T型结构

图21 DDR4菊花链结构

从仿真的角度出发，这种仿真需要考虑的因素很多，控制器模型，PCB模型，Connector模型，以及最后的内存条模型，而通常情况下，Connector模型和内存条模型很难拿到，而且有时候就算拿到，也是不同类型的模型，整体Channel仿真需要更多时间和精力来完成。

如果时间有限，需要对设计做快速评估，用HyperLynx做快速仿真也是可以参考的，在下面的例子中，假设一个Conntorller需要驱动两根DIMM或者两颗内存颗粒，系统工作在2400Mb/s, TL2和TL3的长度可以用来大概评估PCB Stub长度加上Connector长度加上内存条长度。（此处只是用来做大概评估，如果时间条件运行，强烈建议拿到各个部分精确模型做比较准确的仿真）。

从这个简单的仿真可以看出来，Stub对于信号质量的影响还是很明显的，特别对于一根内存槽悬空的状态下，上面的例子中，Stub达到1000 mil的时候，在只插一根内存的情况下，眼图已经非常糟糕，所以在实际设计中，需要在设计成本和信号速率之间进行均衡，取舍。在笔者所做的设计中，因为PCB空间限制，最终选择在单根内存的时候只跑到1866Mb/s。

图22 数据线仿真拓扑

在Stub长度为500mil的时候，两根内存都插和只插一根的眼图如下：

在Stub长度为1000mil的时候，两根内存都插和只插一根的眼图如下：

在用Intel的芯片作为DDR Controller做设计的时候，Intel所提供的SI Model可以提供一个比较完整的仿真，Intel所提供的Simulation Deck中，包含了DDR连接器，DIMM模型，如果能找到和实际项目匹配的模型，可以替换Deck中的模型，如果找不到模型，直接用Deck中所提供的模型也是非常有参考意义的。

2.2

Intel SISTAI仿真

Intel所提供的Memory Bit Error Rate Executable (MBERE) tool集成在其Intel SISTAI(Signal Integrity Support Tools for Advanced Interfaces)网站系统上面，SISTAI可以进行PCIE，SATA, USB,QPI等等高速信号的仿真，DDR4仿真模块为MBER, 其基本思想是先基于Hspice产生一个Step Response, 然后把仿真结果.TR0文件放进SISTAI系统进行计算，产生Worse Case的眼图，大致仿真流程如下：

2.2.1 DDR通道建模

Intel的仿真基于10根线模型，八根DQ线加上两根DQS线，可以用Intel提供的Causal-W Element Tool来产生W Element models, 也可以用ADS，Hspice等工具对传输线建模，对于Post-Layout来说，可以使用PowerSI, Siwave等软件提取DDR通道的S参数。注意这里的DQ和DQS的顺序必须和Intel提供的顺序相同，如图23所示。

图23 DDR数据线建模

2.2.2 Hspice仿真

Intel仿真模型还是比较详细，提供了各种模型以及各种不同情况下的Simulation Deck, 在实际仿真的时候，需要用实际设计的模型替换Deck中的参数，以S参数为例，假设提取了整个DDR通道的S参数，那么需要在pcakage的参数之后加入PCB通道模型，如下图第二个红框所示，之前的一些参数，可以删除或者加上*号来Block掉。

图24 Intel仿真模型

图25 Hspice编辑实例

Hspice仿真得到Step Response, 结果如下：

图26 Hspice仿真结果

2.2.3 SISTAI仿真

得到Tr0文件后，需要把Tro放到SISTAI系统中进行计算，操作流程如下：

图27 SISTAI仿真方法

点击Success可以得到仿真结果，比较遗憾的是，SISTAI只能看到眼宽，眼高等仿真数据，并不提供眼图的显示。

图28 SISTAI仿真结果

Intel的文件中也提供了Spec可以对仿真结果进行对比判断

表5 DQ Write Eye Target Minimums

表6 DQ Read Eye Target Minimums

3DDR4 RMT Margin测试Fail问题实例

3.1

设计情况

该设计采用Intel Haswell-EP CPU作为DDR4 Controller, 采用3DPC(DIMM Per Channel)的设计，如下图29所示。DDR4运行速率为1600Mb/s。

图29 DDR4设计拓扑

3.2

问题描述

主板做好后，需要对DDR4信号进行测试验证，但是对于内存条类的DDR4，测试点非常难找，测试结果也很不准确，所有选择只测试Memory Margin。在用Intel提供的Margin测试工具RMT进行测试的时候，测试了各种不同厂商的内存条，分别有Hynix 8G, Hynix 16G, Samsung 8G, Samsung 16G, Samsung 32G, Micron 8G, Micron 16G, 其中只有Micron 8G 结果显示RxVLow, RxVhigh的值小于14(Spec为大于等于14)，其他内存条测试结果均满足Spec要求。

表6 RMT测试结果

3.3

Memory Margin Test

上面说了RMT测试Fail,但是RMT测试是什么呢？下面对Memory的一般测试做大概介绍。众所周知，实际PCB做好后,我们需要对其进行测试以验证信号完整性。通常是采用示波器测试对DDR信号线在读写时的信号质量，但是这种测试存在很大的局限性，比如DDR信号到达每一个Component端的测点无法被点测到，测试点往往距离芯片pad还有一段距离，需要一些额外的测试设备，这样势必会影响准确性，另外，DDR信号读写分离一直都比较难处理，即使使用仪器厂商提供的专业测试软件，也往往看不到非常准确的波形，还有测试点只位于芯片外部, Memory Controller内部对信号Timing的调整无法被测到，所以在采用示波器测试波形之外, 还非常有必要进行Memory Margin测试。

图30 DDR4测试设备

图31 DDR4测试眼图

简单的Memory Margin的测试方法是, 在Controller和DRAM都使用外部VREF供电的条件下, 调节VREF的电压幅度, 同时运行Memory Stress Test软件(如: Golden Memory, MSTRESS 等等), 直到出现测试Fail的VREF值同默认VREF值间的差值, 记为VREF Margin。调节VREF并不会影响信号传输的波形, 因为VREF只是芯片接收端(Controller或DRAM)判断输入为0或1的判断依据。然而在DDR4时代，Vrefdq已经集成到芯片内部，我们无法对其进行调节。

这个时候一些专门的测试软件就比较方便，比如Intel就提供了RMT和EVTS做为DDR Margin测试。

图32 Margin测试原理

RMT(DDR Rank Margin Tool)，其原理是修改设置, 让BIOS在开机时自动运行Training程序, 同时通过Debug Port输出Training的结果, 然后分析输出的打印信息, 从而得到Memory Margin。所得到的结果不仅仅包含VREF Margin, 还包含Write/Read Timing Margin, ADD/CMD Timing Margin…而EVTS是对RMT的一个补充，可以进行per-bit margin测试，如果Margin不佳，左右或上下不对称的时候，可以用EVTS 2D Margin来了解成因是否为眼图形状所致。

3.4

问题分析

3.4.1 Micron 8G 本体分析

因为其他内存条RMT测试都是PASS的，唯有Micron 8G的测试是Fail，第一点想到的就是DIMM本身问题，联系Micron FAE后，Micron怀疑是测试的内存条生产日期太老，版本变更会影响测试结果，然而拿到最新的样品后，测试结果仍然没有任何改善。

同时，用这些样品在Intel CRB(Custom reference board)上进行测试，却是可以PASS的。

由此可以判断，Micron 8G本身并不是Margin Fail的唯一因素，只能试图增加主板PCB Margin来改善RMT结果

3.4.2 通过Simulation来分析问题

从问题的描述来看，主板+大部分内存条测试PASS, 有问题的内存条+其他主板测试PASS, 看起来是遇到了最让人头疼的Worst Case+Worse Case的情况，这种情况下，单纯的从设计本身来看，各项设计指标都可以满足相关文档或者Design Guide，只能从细节入手，从一些细微的调整和优化来提高彼此的Margin, 就这个Case来说，Micron 8G的Module已经量产，在没有足够的证据之前，没有办法要求厂商来做任何修改，而主板正在设计阶段，看来只能想办法来优化提高主板Layout从而提高Margin了。

然而对于DDR来说，如上面所描述，各项设计指标都满足相关设计规则，仅仅通过经验猜测，改版，测试的方式来做，无疑毫无效率性和针对性而言，而通过仿真的方法，来做各种各样不同Case的仿真，找到对于提高Margin比较明显的改善点，然后修改Layout，就比较有针对性，也避免了多次改版所带来时间和费用上的浪费。

回到设计本身，如本文3.1节所描述，本设计采用一个通道三根内存的设计(一个Controller加三个DIMM)，如图33所示，仔细分析测试结果，Marign最差的均为DIMM2（距离CPU最近的一个）,做一个简单的理论分析，不管从CPU写数据到DIMM2或者从DIMM2读数据到CPU，无论DIMM1和DIMM0处于何种状态，L2和L3始终存在，对于DIMM2来说，相当于有一段Stub存在，而Stub会引起信号反射，从而导致Margin减小，哇，找到Root cause了哎，原来问题这么简单，快快改版做下一批PCB吧，可是，万一下一批还是不行怎么办？冷静一下，还是先做仿真验证一下吧。

图33 PCB Layout

冷静一下，再仔细分析，对比主板和Intel CRB的PCB设计，果然在这边存在差异，CRB板子L2和L3长度大概为398 mil, 而我们的主板L2和L3长度大概为462 mil, 确实有差异，既然这边的长度有差异，从前面我们的分析来看，仿真结果也肯定会有差异，我们来仿真看看，如前面所说，Intel SISTAI只能提供仿真数据，而无法显示波形，仿真结果整理如下图。

表7 Write仿真结果

表8 Read 仿真结果

从仿真结果可以看出来两点，第一，仿真数据最差的也是DIMM2，和实际测试结果吻合；第二，我们的主板仿真结果比Intel CRB的结果要差，和我们之前分析和猜测吻合。那么，缩小L2,L3的长度以后，仿真结果是不是会改善呢？由于PCB和Connector本身差异，我们的主板L2和L3最短只能缩小到410 mil左右，那么，PCB改善后的结果如何呢？仿真数据如下表。可以看出来，无论Write和Read， D2的结果都有了改善，可是为什么还是和Intel CRB差异很大呢？

表9 仿真结果对比

再来对比Layout，Trace走线已经找不出差异，之前没有关注过的叠层(Stackup)成为最大的差异点，CRB为8层板，而我们的主板为18层板，而且我们的主板DDR走线靠近TOP层，这么大的叠层差异直接导致了PTH Via孔所造成的Stub长度不同，同样，DIMM插槽的针脚长度差异也会造成Stub影响，CRB采用的DIMM插槽针脚长度为2.4 mm, 我们主板DIMM插槽针脚长度为3.2 mm, 没有找到相对应的DIMM插槽模型，只能采用删减或增加PCB叠层厚度来简单模拟DIMM插槽针脚长度，减小主板DIMM插槽针脚长度(采用Stackup变更来简单模拟) 到2.4 mm，仿真结果如下，已经非常接近CRB的结果了。这个仿真虽然不是非常准确，但是也是可以看出来Stub对信号质量的影响。

表10 最终仿真结果对比

按照分析结果，缩短L2,L3的长度，改为阵脚比较短的DIMM插槽（因为设计已经基本定型，只能进行小的改动，没有办法把DDR走线移动到靠近Bottom层的Layer），重新改版后，之前测试Fail的Margin提高了2~3 Step, 终于可以PASS了。

至此，对于此Case的分析和仿真基本结束， DIMM to DIMM之间的长度以及DIMM插槽针脚长度（以及PTH VIA Stub）所造成的Stub对于提高信号Margin有一定的贡献，所以在针对3DPC(DIMM per Channel)的设计，在设计初期，就应该尽可能减小DIMM TO DIMM的长度，对于板厚比较大的Case，尽可能把DDR走线靠近Bottom面，以减小Stub对信号质量的影响。

4小结

DDR的设计，仿真，测试，一直以来都是大部分设计者比较关心的地方，也是让大部分工程师比较头疼的问题，首先从理论理解来说，DDR包含了很多技术难点，比如接口电路，比如Timing, Driver Strength, ODT等等概念都需要理解。其次从Layout角度来看，DDR不像串行总线一样，只有几对差分线，问题很容易定位，而DDR一旦出现问题，如果定位问题，成为众多设计者感到棘手的问题，需要做大量的测试和实验。最后，从仿真角度来说，DDR的仿真也比串行总线的仿真复杂很多，需要考虑PCB，连接器，内存条，还要考虑各种参数的设置等等。

本文针对DDR设计中普遍存在的一些困惑，先是对DDR4的新技术和关键技术做了大概描述，然后介绍了DDR4目前的仿真方法，以及Intel对于DDR4的仿真Solution。最后通过一个Memory Margin的实际案例，介绍分析和解决问题的思路。

锐单商城拥有海量元器件数据手册、IC替代型号，打造电子元器件IC百科大全！

DDR4 设计概述以及分析仿真案例

相关文章