Compute Farm:新的数据中心
时间:2023-12-14 23:37:02
越来越大的设计规模不仅需要更好EDA工具还需要显著提高计算能力。物理合成、放置和布线,尤其是设计验证应用,需要这么多的计算能力,往往成为产品开发的瓶颈。在过去的20年里,工业界习惯于依靠个人工作站来完成产品设计和开发所需的功能。在这一时期的大部分时间里,工程师都是工匠,在推广过程中使用个人工具。当设计师单独为一个项目工作时,管理者更容易预测每个桌面所需的硬件和软件配置。现在,工程师们从事各种复杂的任务,并使用一些任务EDA工具。因此,特定的硬件配置和特定的硬件配置EDA将工具许可证分配给每个工程师是不现实的。工作站的CPU利用率通常在5%到20%之间。工作站大部分时间都在进行I/O操作或闲置等待数据。随着设计的发展,有必要与同事合作,克服复杂性,就像借用计算能力在网络上及时完成工作一样。由于很难预测每个设计师在设备使用期间所需的计算能力,因此公司在采购和管理正确的工作站组合方面一项艰巨的任务。
EDA供应商通过发明 "浮动许可证 "回应这一新要求。有了它,工具就不会被束缚在特定的条件下CPU上;你可以随着需求的变化把它从一个工作站移到另一个。
农场进城
企业内部网相当于现代数据中心。允许工程师在个人工作站使用其他闲置机器进行无法操作的设计功能。在实践中,很难在别人的机器上安排工作,因为工具许可、执行长度甚至硬件配置都会导致工作暂停和时间浪费,而不是提高生产力。管理网络中作业的分配是一项全职工作,实际上,工程师和系统管理员都无法经济地做到这一点。当工程师安排远程操作时,他们需要确保目标工作站有足够的资源,以确保操作完成,除非应用错误。
竞争促使微处理器公司遵守摩尔定律,每18个月左右提供更快更好的服务CPU。随着计算能力的提高,经理们不得不为尚未完全折旧的工作站寻找用途,这些工作站必须被替换,以跟上竞争对手生产力的提高。毕竟,你只能把这么多工作站转移到会计或营销部门!可使用速度较慢的工作站。若有切实可行的方法,可使用较慢的工作站进行批量作业。
工作站的制造商正在展示他们的能力EDA供应商同样灵活,并提供了一个新的选择:计算场。在终端用户看来,计算场是一种独立的计算节点、存储阵列、网络组件和软件的集合。计算场的组件可以是专门为计算场产品设计和销售的产品,也可以是工作站、磁盘、网络交换机、软件等通用硬件,物理和功能连接,看起来像计算资源。
对于设计师来说,主要的好处是可以获得每周7天24小时使用的计算资源,并有足够的能力确保最复杂的应用程序和最大的设计不会因为缺乏资源而停止。管理者可以利用他们将被取消为过时资本设备的硬件资源作为计算场的节点,并利用中央政府和共享资源提供的工作分配的灵活性。世界各地的设计团队也越来越分散。通过私人或公共互联网连接,私人或公共互联网连接,可以减少资本支出和需求IT同时,专业人员的数量将计算能力保持在足够的水平,以避免因缺乏硬件资源而的项目瓶颈。
Sun的经验
1991年,Sun基于当时可用性的微系统公司正在使用它SPARC开发新一代工作站SPARC处理器。台式工程师的处理能力和内存几乎用完了,用更强大的工作站升级所有工程师是不经济的。因此,Sun为了减少设计周期,实现第一次迭代时功能正确的硅,公司发明了计算场。需要250多种设计EDA和MCAD/MCAE应用程序涵盖设计的所有阶段:架构、逻辑设计和验证、电路设计和验证、布局设计和验证(图1)。
从那时起,设计的复杂性大大提高。上一代的SPARC目前,处理器在芯片上有500万个晶体管SPARC芯片上有2300万个晶体管,系统架构师估计下一代设备将包含多达2亿个晶体管。现代微处理器的完整验证运行需要超过1.使用最新的商业工作站可能需要多达35个模拟周期5亿个CPU年才能完成。然而,由于您可能每周进行一次以上的完整验证,这个问题立即变得非常明显。目前,Sun公司有五个计算场EDA任务。微电子农场有600多个多处理器工作站,代表4000多个CPU,3Tbytes的内存和100Tbytes磁盘存储。这个农场的CPU昼夜利用率超过97%。难怪加州电力短缺!
从自己的要求中学习,Sun该公司开发了一个产品系列。TCF(Turnkey Compute Farm)是Sun公司设计、测试和支持预配置产品。基本盒子提供文件服务器;四个计算机引擎,每个引擎包含四个处理器和相关内存;磁盘阵列;24端口开关;机架上的两个接入服务器。交换机和访问服务器由思科系统公司分发。SGE(Sun Grid Engine)硬件和工具管理TCF或TCF集中作业队列。从概念上讲,SGE它就像一个智能批处理队列管理器,根据每个工作所需的硬件资源来确定工作的位置和时间。任何在Sun Solaris操作系统上运行的软件都可以SGE运行不变。若计算引擎出现故障,SGE会使用不同的TCF资源重新启动作业,只要它们可用。
惠普进入市场
微处理器和复杂的电子系统是惠普销售的许多产品的一部分。惠普管理层面临着利用分散在各地的工程团队开发复杂系统的固有问题。例如,为了设计最新一代CPU,设计和验证团队使用了300台桌面HP-UX工作站开发块级设计,执行互动任务。它还使用了200个HP-UX由20个工作组服务器支持的计算场提供多达10个T存储字节以验证设计。芯片组装团队使用其他20个计算场来执行其功能。当然,由于惠普是工作站,所有计算农场都使用惠普的设备和设备HP-UX操作系统。惠普和惠普作为项目的一部分Cadence设计系统公司(www.cadence.com)建立技术伙伴关系,共同开发集成电路设计方案。合作伙伴关系的最初重点是设计验证。伙伴关系已经实现。HP-UX在操作系统上运行Cadence NC-Sim提高产品效率。对惠普计算农场配置的额外改进将回归测试从8小时减少到1.4小时。两家公司合作的另一个结果是优化Solaris环境中的HP-UX集成设置计算平台。
参与大型复杂项目的工程师经常会遇到意想不到的副作用,包括积极和消极。积极的结果可以提高效率,为新产品或团队成员提供更好的培训。在Itanium惠普开发了处理器设计项目Sim Launcher实现定向随机测试方法(图2)的工具。在整个回归测试阶段,模拟农场的效率保持在80%以上,但这只是Sim Launcher许多好处之一。该工具还允许工程师修改本地文件,并测试发布的文件。它还提供了具有独特随机数种子测试能力的指定组。Sim Launcher支持NC-Verilog和Verilog-XL,可以在HP-UX服务器和HP-UX或Linux运行在客户端。当惠普公司被发现时J没有人应该对6000产品进入计算机群业务感到惊讶。该系统有双PA-8600处理器运行频率为552MHz,内存容量高达16G,存储容量为72G。惠普为产品提供了各种操作系统版本和连接能力的选择。你可以在一个机架上集成多达20个J6000系统形成计算节点,提供88-GFLOPS峰值性能和几乎1.5Tbytes的存储。每一家惠普公司J免费提供6000设备Sim Launcher工具。
SGI支持Linux
SGI(Silicon Graphics)重新定义其企业使命,扩大其产品范围。该公司最近通过了支持Linux操作系统和微软NT和Windows 2000硬件产品进入计算机群市场。尽管许多EDA供应商不再强调他们对微软环境的支持,但有很多EDA产品已移植Linux上。由于操作系统的稳定性和所需硬件的低,EDA Linux该系统使用英特尔或同等的市场显示出真正的增长CPU。SGI已经推出了三种计算群产品,都是基于英特尔奔腾III1100、1200和1450服务器有各种速度和配置选项。时钟速度从550MHz到1GHz不等,系统内存从128Mbytes到4Gbytes不等。1100和1200使用一个或两个CPU,而且1450可以容纳四个。反映出支持Linux市场仍然有些分散,SGI在操作系统支持方面,计算农场数据表有点混乱。支持1100计算节点的数据表Linux 6.2版,1200数据表声称支持Linux Red Hat 6.1或Linux SuSe 6.3。此外,还列出了1450服务器的数据表Red Hat 6.2和Linux SuSe 6.2的支持。好消息是,SGI确实为其客户提供了操作系统的一线支持。2001年在德国慕尼黑举行DATE(设计与测试博览会),SGI展示了Cadence公司的NC-Sim;Mentor Graphics公司的ModelSim和IC Station(www.mentor.com);以及Synopsys公司的VCS、Scirocco和Design Compiler(www.synopsys.com)。
共同点
尽管Sun公司的计算群产品配备了SGE软件,以管理计算节点的工作负载;但其他供应商的产品并不提供这种效用。平台计算公司是一家成立9年的加拿大公司,致力于分布式资源管理市场。其产品之一,LSF(负载共享设施)已成为计算场调度和管理的事实标准。包括Sun大多数系统供应商,包括公司,都使用它们LSF,并将其销售给客户。LSF套件包括Solaris、HP-UX、Linux和NT环境等版本Unix分布式负载共享和运行调度。多处理器工作站和计算农场大大提高了工程团队的可用处理能力。LSF利用包括所有工作站甚至工作站集群在内部网络上的所有可用计算资源,有效处理作业。如果一个计算元素出现故障,如果故障发生时正在运行的应用程序允许重新启动中断的运行,LSF重新启动机器。否则,它将应用程序转移到另一台可用机器上重新运行。LSF使用主配置,它保留了控制执行环境所需的数据,以及监控网络中活动状态和计算引擎可用性的一些恶魔和代理。LSF因此,即使主配置所在的服务器出现故障,数据也不会丢失,执行也可以继续。
LSF包括一系列模块,Platfrm Computing将这些模块整合到产品包中,以服务于一些行业和应用。你在EDA应用中常见的产品包是LSF专业版、LSF标准版、LSF并行版和Platform CADStarter。Platform CADStarter适合于小型安装,正如它的名字所暗示的。该工具根据用户定义的参数启动应用程序,并为管理员提供一个GUI来定义、查看、编辑和监控工作会议。LSF Parallel管理并行应用,如柏拉图的NanoRoute产品。LSF标准版具有分布式Unix和NT计算环境中的负载共享和批处理调度功能。这个软件包在EDA用户中是最受欢迎的。那些必须经常管理大量计算节点的组织,如前面两个例子中的Sun和HP,则转向LSF专业版。这个软件包建立在标准版的基础上,但增加了关于网络系统的状态和历史的报告功能、容量规划、收费会计和性能改进报告。一些EDA供应商,如Cadence、Synopsys和Avanti(www.avanticorp.com),已经与Platform Computing合作,在其产品中实施许可优先权。通过这种方式,如果一个高优先级的工作被安排,而没有许可证,那么一个低优先级的工作就会被暂停,而许可证就会被分配给高优先级的工作。这种调度是动态的,因此,所有的工作最终都会根据其相对优先级来执行。
平台计算公司的产品系列允许IT部门使用任何供应商的硬件来建立计算农场。公司在采购Sun、HP或SGI的系统时发现了管理和可能的财务优势,这些系统都是针对计算群市场的。他们的客户也可以放心,供应商将提供计算能力、内存、存储和连接的正确平衡。此外,至少在Sun公司和惠普公司的情况下,你可以不受实际限制地扩展配置,以满足不断增长的组织的不断增长的需求。但是,如果一个EDA用户可以利用NT或Linux支持的工具,他或她可以从头开始配置一个计算场。你购买适当的LSF包,并使用任何英特尔兼容的机器集合来配置一个计算场,只要对硬件配置要求有合理的了解。
应用实例
EDA供应商和客户都对计算农场提供的生产力的提升表示赞赏。在过去的两年里,计算农场的使用已经大大增加。平台计算公司将全球20家最大的半导体公司中的18家作为其客户,大多数系统公司都在使用计算农场进行验证和回归测试。
Synopsys使用计算农场对其产品进行回归测试。大多数硬件来自Sun Microsystems,尽管一些英特尔兼容的工作站也被用于Linux版本的产品。所有的计算农场都使用LSF,因为Synopsys的大多数客户都使用LSF。因此,软件是在一个类似于它一旦发布就会遇到的执行环境中进行测试。Synopsys的设计验证部门用LSF测试了VCS,并对Verilog仿真器做了一些修改,以优化其在计算农场上的执行。Vera测试工具现在允许使用并发测试平台对设计进行分布式验证,这一功能在使用计算场时最为有效。计算农场也改变了产品许可证的营销和销售方式。Synopsys提供捆绑式许可证,使客户能够优化许可证价格和硬件使用。最后,CoverMeter可以添加来自不同计算场节点的结果,以及测量增量覆盖。其结果是,对于设计或验证工程师来说,一个计算群看起来就像一台计算机。
模型技术公司,Mentor Graphics的一个部门,看到其客户对计算群的使用在增加。一般来说,模拟器许可证的数量要比客户安装的工程师数量多。该公司已经修改了其模拟器产品,以便在LSF下实现检查点/恢复。模型技术公司还修改了其许可方案,以承认计算农场提供的新的执行环境。计算农场许可证允许用户运行VHDL、Verilog或混合语言的模拟器(价格略高于一种语言)。除了修改产品以提高LSF下的性能外,Model Technology还与Sun和HP合作,优化其产品在计算场上的性能。
Mentor Graphics发现,自从它发布了多线程版本后,其客户也在用计算群来使用其Calibre物理验证产品。主要的优势是优化了内存的使用,因为Calibre将设计保存在内存中而不是磁盘上,以优化执行。Mentor还改变了Calibre的调试界面和图形用户界面,使这两个模块与引擎脱钩。这样做允许计算农场所需的批量执行。该公司还修改了许可方案。对于计算农场环境,一个Calibre许可证对三个CPU有效,以利用多线程架构。
Intrinsix公司(www.intrinsix.com)是一家专门从事电子系统设计的全球咨询公司。它使用运行LSF的Sun和HP计算农场对其设计进行验证和回归测试。计算农场允许Intrinsix通过在设计人员之间共享工具许可证,甚至是远程共享来最大限度地利用其工具许可证。目前,Intrinsix没有在生产中使用任何Linux计算农场,但它正在评估Linux的使用,因为Synopsys和Model Technology的产品都在该操作系统上运行,而且英特尔兼容的硬件通常比更传统的工作站成本低。
Simutech,一家提供虚拟组件评估服务的公司,已经部署了一个不同版本的计算农场。它提供对其Rave仿真引擎农场的远程访问,该引擎允许对第三方虚拟组件进行安全和灵活的评估。事务处理和作业循环软件作为农场的前端,在可用的Rave引擎之间分配任务流。
在工程师的桌面上进行了多年的完全分布式计算之后,钟摆又摆回到了强大的、集中式计算能力的模式。不同的是,一些计算节点连接起来,提供所需的计算能力的增加。