万博体育manbetx手机版

ISSCC2020高速串口解析

作者:万博体育manbetx手机版    发布时间:2020-02-29 08:29    浏览量:65

万博体育manbetx手机版从分布来看,五篇来自工业界、三篇来自学术界,学术界的论文可以说是另辟蹊径,没有在主流路线上竞争更高的速度。从工艺来看,三篇7nm、一篇10nm、一篇16nm,这五篇均来自于工业界,还有来自于学术界的两篇40nm、一篇65nm。从速度来看,有三篇112Gbps,其中两篇是完整的TRX,一篇是TX。去年的ISSCC还没有达到112Gbps的RX,今年一下出来两篇,都是LongReach,再考虑到博通、Cadence、以及我前东家eTopus这些已经有112Gbps的产品或demo但没有发表论文的公司,可以推测出工业界在这个方向的军备竞赛是多么的激烈!

这一页PPT对近几年高速串口的发展状况做了很好的汇总,信息量不小。至少可以看出三点:一、基于移相器(PI)的经典双环结构依然屹立不倒,这种结构的主要优势是把PLL带宽和CDR带宽解耦,以及可以多个收发通道公用一个PLL,节省面积和功耗。二、基于ADC-DSP的RX结构是绝对的主流。一般来说,analog的RX功耗较低、CDR的带宽可以做的更宽一点,但在稳定性上不如DSP的结构,而且更重要的是,analog的结构从工艺升级上的好处要远小于DSP的结构。三年多前我有次跟老板聊天,他说随着工艺升级,DSP结构和analog结构的性能会有一个交点,他判断这个交点发生在差不多发生在16nm这一代工艺,之后DSP结构会成为主流。这也是为什么我前东家一开始就瞄准了DSP的结构。今天再回头看,这个判断还是很精准的。第三、对112Gbps第一代高速串口,TX选择CML结构的要多于SST结构的,CML结构更利于高速设计一点。

这一页给出了TX的整体结构。我们设计高速串口TX的时候,首先要考虑的是时钟速度,是选用1/2速的时钟还是1/4的时钟。像我上篇文章总结到的,56Gbps的TX几乎都采用1/2速的时钟。到了112Gbps这一代大都选择了1/4速的时钟,这一篇也是,所以最后一级MUX是4:1的MUX。这种选择合情合理。一般来讲,对于先进工艺,大家会认为实现更复杂较准功能的成本比把极限速度推高一倍的成本低。

这一页的另一个亮点是输出匹配网络,从56Gbps到112Gbps,对于输出节点带宽要求变大一倍。我在之前讲宽带匹配的文章里提到过,带宽优化的一个思路是把寄生电容打散,用电感进行隔离。这里采用的就是这种思路,两个diode之间用电感隔离开,获得更高的带宽。

112Gbps的CTLE其实非常非常难做,不仅需要保证带宽、可配的peaking强度,好需要保证一定的线性度。一般的CTLE都是线性放大器的设计,有为电流源、放大管、共模反馈等等,堆叠的晶体管多了,每个晶体管所占的电压空间变小,线性度变差。那怎么办呢?我们要减少堆叠晶体管的数目,减少到最后不就变成了反相器么?那么问题就来了:

要怎么去做peaking呢?传统的做法是在放大管源端做电容负反馈,但反相器的源端已经接地了,没法在做负反馈。没关系,我们可以在diode接法的反相器栅端加一个RC低通滤波,这样也可以实现peaking,相当于activeinductance,这种做法在去年的ISSCC也有用到过。

PPT中给出的测试结果,CTLE的性能很好,最大17.5dB的peaking,带宽超过30GHz,而且仿真和测试结果之间只相差了不到0.5dB。这也仿的太准了!Amazing!根据前面的分析和这里的测试结果,全反相器的RX前端在账面上效果非常不错,至于有没有一些量产方面的坑,我没有做过测过,不敢妄加评判。

从技术上来说,56G的高速接口架构已经较为稳定,主流选择是:RX基于DSP,TimeInterleavedADC,一般先4到8的Track/Hold,每个Track/Hold带若干个ADC的Slice,TX采用HalfRate。均衡方面差不多都是CTLE、1-TAPDFE、若干TAP的FIR,以及TX-FFE。那56G接下来的技术挑战就是低功耗、以及更强大的Adaptive功能。对于112G的高速接口,我觉得现在大家追求的目标是先做出来再说,功耗什么的留给以后再优化,在架构选择上可以看到一些趋势,但还没有稳定下来。

第一种做法是还是4x8的结构。这样每个ADCslice的速度需要提高一倍,而且TrackHold的带宽也要提高一倍。这样相当于把速度压力大部分都给了ADC。从16nm到7nm,速度也就增长了30%左右,而这里ADC的速度需要提高两倍!做起来不容易。

第二种做法是选择8x8的结构。这样每个ADCSlice的速度保持不变,但整体数目变多了一倍。TrackHold的数目也变多了一倍,对前一级的电容负载变大了不止一倍。想想不太合理,这种做法相当于把速度压力全部都丢给前级,ADC一点儿也不分担,尽管工艺速度变快了。

但6x6的结构会导致时钟网络很啰嗦。4和8都是2的倍数,时钟相位产生起来更直接。6x6的结构第一级需要6UI的时钟来使能TrackHold,而从PLL打进来的是4UI的时钟,相当于需要一个1.5倍的分频器来产生各个相位。这篇论文里采用多相注入锁定倍频器来实现的。

又一次,xilinx判断,6x6的结构带来的功耗和面积的优势,要超过了多相时钟产生带来的啰嗦。但我想,这个结论并不是普适的,有可能xilinx之前在时钟方面有丰厚的积累,做这样一个时钟网络对他们来说不仅容易,而且风险很低。其他组不具备这样的条件,就不一定能做这样的决定。

相比起来,调一个具体的电路容易多了,你能很快的扫描参数,很快的看到结果,无非是谁扫描的更细心一点或更高效一点。在选择系统架构的时候,这些电路都还没有呢,性能怎么样也不知道,难度有多大也不知道,只能依据过往的一些经验拍板。等实现到一大半发现结构选的不合适已经晚了,资源已经投入在里面,想调头非常不容易。而且架构选择还不仅仅是技术,还要考虑公司已有的技术积累、承担风险的能力、这款产品的定位、项目的工期等等商业和政治因素。因为试错成本高,所以对经验的要求非常高。那怎么才能快速增长经验呢?无他,平常多思考多积累,多分析别人的工作,以及,多来看看我的文章。

下一篇:没有了

相关新闻推荐

Copyright 2016 - 2021 万博体育manbetx手机版. All Rights Reserved 版权所有  冀ICP11235680