释放fpga通过基于模型设计的力量
Nabeel Shirazi博士,Xilinx公司。
基于模型的设计一直是事实上的标准算法探索和实现应用程序的开发人员,如软件定义无线电,嵌入式视觉、运动控制系统、和医疗设备。许多这样的应用程序需要高性能计算和效益显著大规模并行体系结构的fpga。但是利用fpga,开发人员需要桥之间的差距algorithm-centric MATLAB的世界®和仿真软金宝app件®fpga的以硬件为中心为世界,一旦需要相当艰巨的手工翻译的步骤。
近20年前,Xilinx率先解决这个问题对DSP系统发电机,使基于模型的设计流程,直接映射到fpga。这已被成功地用于成千上万的设计。但是发生了很多变化在过去的二十年。ADAS等新的应用程序,5克,和机器学习提高性能要求系统和驱动进化的fpga可编程soc等新设备类,就在最近,自适应计算加速平台(ACAP)。随着,基于模型的编程模型也进化和搬到更高级别的抽象,以管理大规模增加系统的复杂性。
这个演讲的灵感来自于过去20年的基于模型的设计,为未来20年的创新奠定基础。我们描述市场趋势、可编程设备,基于模型的发展已经改变了在过去的十年中,他们可能会如何演变。
记录:2018年11月6日
好,谢谢你,丰富,介绍。今天真的是我的荣幸来到这里。我有机会与MathWorks过去20年来发展从MATLAB和Simulink工具流到我们的设备。金宝app然而,这是我第一次有机会跟很多观众中MATLAB和Simulink用户。金宝app所以这是我的荣幸来到这里,我的荣幸来到这里。
二十年是一段很长的时间在这个行业,有很多的变化。所以我给你的是什么样子的,我们与MATLAB和Simulink的旅程,和我们的合作MathWorks,今天的一些挑战,我们已经与今天的应用程序,并在未来我们可能会去的地方。金宝app
首先,我们看到了三代无线基础设施出现在这个时间框架,从3 g, 4 g LTE,现在你看到5克被推出。同时,我们在采用人工智能的黎明。这是任何人的猜测,在理查德的说话像你看过,AI将被使用。但有一点我们可以肯定,这些算法将增长极大的复杂性。
为了满足不同应用的需要,我们必须想出新类的设备。于是我们开始与fpga,现场可编程门阵列。所以我可以看到使用的有多少人举手一个FPGA吗?好吧。Xilinx人放下他们的手。好吧。太棒了!那里是一个很好的数字。
所以我会给你一个简短的总结什么是FPGA。这是一组可配置逻辑块和可编程互连。和这些可配置逻辑块可以级联一起创建更大的fft算法和过滤功能。和可编程互连可用于创建自定义数据路径之间的可配置逻辑块。那时,我们有成千上万的这些可配置逻辑块在我们的设备。现在,我们有数百万。您可以实例化这些函数相互平行。这样,你可以比cpu、DSP处理器,现在gpu。
所以这些fpga经过多年的发展。他们真正变成了系统芯片上。最近,我们已经RFSoC和MPSoC设备。RFSoC用于5 g市场。MPSoC或芯片多处理系统,专门用于嵌入式视觉和人工智能的应用。
最近,我们宣布ACAP设备,或适应性计算加速平台。这是一个非常激动人心的设备。我一直在Xilinx 20年来,这是我目前为止最兴奋。我的工作在Xilinx这些应用程序和设备之间连接的点,逐步抽象的水平在我们的工具,以提供更多的生产力用户喜欢你。
让我们看一看一开始,当它是一个3 g无线的黎明。那是1998年,恰好当我第一次加入Xilinx。我们有一个主要通讯客户,或通信客户,来找我们。他们想要实现的一个关键部分的3 g无线广播,这是一个数字基带预失真算法。和他们想要这样做的主要原因是他们想降低系统成本。和他们想利用fpga来利用它的并行性,但也创建自定义内存层次结构饲料设备的计算引擎。
有一个问题。他们的设计是用MATLAB和Simulink,当时我们的工具只有在硬件描述语言,像金宝appVDHL Verilog, RTL级代码。我们有这个模型和fpga之间的巨大差距。金宝app真的是只有一条路,那时候,弥合这一差距。这是雇佣一个硬件设计师。
这可怜的硬件设计师会爆炸在他最先进的计算机CRT显示器和做手工翻译之间的模型图和RTL代码。金宝app这是极其错误的,容易出错。所以必须有更好的方式去3 g。
赛灵思公司发明的,更好的方法是一个工具,称为系统DSP的发电机。这允许他们做的就是从一组DSP-oriented块模型RTL代码和高度定制的IP核。金宝app现在,我们做了这个映射,本质上,在仿真软件和IP核心Xilinx提供。金宝app给你很好的质量的结果。
这客户的设计实际上是显示在右边。这是一块13000 -仿真软件模型。金宝app但只花了几个月来设计并验证它。他们信用我们首先获得3 g无线市场。
这是一个客户的共识,基于模型的设计不仅仅是代码生成。是模拟原型,做代码生成的去生产。同时,仿真软金宝app件提供了一个非常自然的方式指定并行性和自定义数据之间传递你的计算引擎。它允许您调试和测试模型,模拟数量级的速度比RTL代码。减少的次数,你必须去硬件,因为这可能是一个更乏味的过程在硬件调试你的设计。最后,你创建一个可执行的规范,这可执行规范可以交给不同的团体在你的组织中,FPGA工程师,射频工程师,以及通讯工程师。
让我们看看一些困难的客户数据。所以我们与BAE系统公司合作。和他们有一个硬件描述语言(VHDL)创建一个软件定义无线电专家。,花了645个小时来构建软件定义无线电。不同的工程师拿起MATLAB仿真软件,对DSP和系统发电机,它只花了46个小时金宝app构建相同的设计。这是一个14 x效率增益。这是巨大的。
好吧。让我们快进到今天。我们试图解决不同的应用程序。现在我们试图解决5 g和人工智能。为了做到这一点,我们必须在系统创建新的blocksets生成器。所以我们创建所谓的超级采样率处理blockset系统发电机解决5 g市场。我们必须创建一个全新的工具,称为模型作曲家解决嵌入式视觉和人工智能市场。这些将利用我们的设备,SoC设备和我们未来的设备。
所以许多人可能知道,5 g无线是一个真正的熊。你知道,这里有一个图表从电子车间,100 x的共识是更复杂的比4 g。这里有许多关键性能指标,如峰值数据速率、容量,和延迟。每个人都至少一个数量级比我们在4 g的更积极。
除此之外,都有新技术在多用户大规模分布式天线等5克,或多输入、多输出天线。有新的波束形成技术和所有这些天线。和他们交流毫米波频率30兆赫到300兆赫。最重要的是,标准仍然在发展。这是一个完美的适合我们的设备。
让我们看看应用程序,我们正在努力的目标。首先,MIMO通信将在完成了远程无线头。我们看基带处理和无线回程,它将使用毫米波频率。和完美的设备来实现这是RFSoC设备。我提到了这是一个SoC装置,它包括传统的FPGA织物,你看到的黄色。但它也有一个处理子系统有四核的手臂在53个处理器,实时的arm处理器,你有一个硬内存控制器。
但真正对这个设备是独一无二的是a到d转换器和数模转换器包含在设备。他们以非常快的频率操作。他们以每秒4 gigasamples a到d,和数模在6.4 gigasamples一秒钟。这大大简化了设计因为之前,你必须有A-to-Ds和数模外部设备。现在你把它们到你的设备。它简化了复杂性,以及降低功率。
那么如何模型,模型5 g在MATLAB和Simulink设计吗?金宝app好吧,幸运的是,MathWorks最近推出5 g的工具箱,让你的端到端链路级别模拟,让你产生波形。您可以下载这些波形实际硬件使用Avnet RFSoC explorer。你可以把这个刺激和饲料A-to-Ds和数模。您可以设置设备,你可以把数据从设备和把它比作一个黄金参考模型在MATLAB。
与这些非常快现在A-to-Ds和数模,它提出了一个挑战的DSP数据通路实现的可编程逻辑。所以在原系统生成器,你必须做的是时间维多路输入,因为它是在这个例子- 1.5兆赫。FPGA织物运行相对较慢。你麻痹你的数据路径,然后时间多路输出。好吧?
为了使这个简单的,我们所做的就是创建一个超级采样率处理blockset需要矢量数据转换为每一个街区。这设计,是关于30岁块,简化了下来就九块超级采样块集。所以需要向量,向量供应,并且让事情更加简单的构造。
好吧。让我们开关齿轮和看看嵌入式视觉ADAS的例子。最近我们有一个客户来找我们。他们想建立一个模块,在你你的汽车后视镜。这是避碰。和他们的权力预算非常严格。只有5瓦。我的意思是,没有很多的计算可以做5瓦。和他们的成本预算只有10到40美元。和丰富的讨论在ADAS的一些挑战。
让我们来看一个例子。想象你驾车在公路或也许在未来,汽车驾驶你的路上有一个前置摄像头,收集数据。你知道,这可能是采样之间30帧每秒60帧每秒。高清摄像头,有时你有立体视觉相机,对吧?你有一个深入学习网络,试图进来的图像进行分类,找出什么样的对象是在你的面前,他们会在哪个方向来创建一个对象的途径来避免。最后,你需要沟通应用刹车的制动系统。
现在这个客户的要求是在说,从输入传感器应用的延迟刹车需要30毫秒。所以在计算的时间越少,更多的时间你必须踩下刹车。这是很重要的。所以完美的设备来实现这个Zynq MPSoC。现在,这都有一个不同的集合硬化组件的设备。它没有A-to-Ds和数模,但它有一个视频编解码器。
所以现在我们不得不反思:我们如何想在仿真软件可编程逻辑的设计吗?金宝app这就是我们提出了模型的作曲家。就像系统发电机,这个blockset符合仿真软件。金宝app然而,在更高的抽象层次上模拟它。你有块做计算机视觉,线性代数,DSP。在这里,我打开计算机视觉库的子集。现在,计算机视觉库利用OpenCV开源库的一部分。我将向您展示一个例子两块,一块膨胀和侵蚀。
这个例子是一个路标检测。它使用一个颜色检测的信号。所以一个男人在我集团决定把一个视频作为他开车进Xilinx。至少他是关注速度开车时迹象。他记录了这段视频,他在仿真软件播放从计算机视觉系统工具箱使用块。金宝app所以你可以有图片,你可以看得到的图像从计算机视觉系统工具箱使用块。
第一个块,你看到在管道实际上是进口的C代码。所以有人写C代码颜色空间转换,带来了。然后你看到结束的管道,这两块OpenCV的图书馆。现在,如果你仔细看看所使用的数据类型,在这里,他们是视频数据的帧。系统产生的日子里,我们不得不使用进行像素级处理。在这里,我们做框架水准仪处理。而且,这些块不计时的,所以这两个的组合让你数量级比我们更快仿真与系统发电机。
现在,输出产品从模型作曲家也是完全不同的。我们生成C代码被Vivado高层进一步优化合成技术。我们还生成RTL代码,利用高性能IP核,我们已经在Xilinx过滤fft算法。所以这是两全其美。
我们也有一个路径去硬件。我不想透露太多,因为我想让你们去隔壁的房间,看看它。有一个例子,他们建立了光流,它运行在一个Avnet超96端口。
好吧。所以我给你一些如何与基于模型的DDesign开始,今天的一些挑战,我们已经与5 g和ML,然后让我们看看前方的道路。所以我们可以肯定的一件事是,会有人工智能,人工智能,未来更多的人工智能应用程序。即使在5克,它是用来威胁检测为例。和我介绍了模型作曲家,我们计划增加模型的作曲家的能力,以满足需求的人工智能。我们不得不想出一个新类的设备,和ACAP设备。
让我们看一看。毫升,你们中的很多人可能知道有两个截然不同的阶段。有培训,你有一个大的数据集,训练一个神经网络。这可能花费几个小时的时间,也许几天,在一个数据中心。在一个数据中心,这不是一样重要对你有多少延迟计算结果,或者多大的权力你消费。但当你部署它。
训练过程更加容易,MathWorks深度学习工具箱,你今天会听到更多。现在你必须将网络部署到实际的硬件,这就是推理。这里,权力和延迟是非常重要的,就像我给你们ADAS的例子。
所以在Xilinx,我们认识到培训是非常重要的。它有很多新闻,因为你知道,他们现在有网络,比人类的眼睛。然而,我们认为在推理有更大的市场机会。这就是我们要聚焦。
但是有很多挑战推理。例如,采用人工智能的速度是惊人的。我们已经从AlexNet GoogLeNet现在ResNet。当你开始你的设计,你可能会有一个新的先进的网络当你完成你的设计。再次,以低延迟性能是至关重要的。能源消耗也很重要。和你想加速整个应用程序,而不仅仅是推理引擎,但从清理来自传感器的图片,推理引擎,能够做决策。你想利用你所有的资源在这些设备上。
所以我们相信,适应性强的硬件可以解决这些挑战。原因是,您可以为您的应用程序创建自定义数据流。您可以创建自定义内存层次结构来养活的计算算法。你可以使用自定义的精度。并把所有这三个在一起,Xilinx-and许多其他行业的人创造了这个术语领域特定的架构,或地区体育会。这就是你将所有这些东西在一起成一个单一的设计。我将向您展示一个例子。
所以Xilinx图像分类的解决方案上提供云解决方案如F1,他们定制的最新款的数据流。金宝搏官方网站他们定制内存层次结构,所以你使用缓存内的设备,你的时间最小化和外部交流DDR内存。你也定制这些网络的精度。在这个例子中,我们使用8位整数。但这是不够的为明天的人工智能应用程序。
这就是我们相信新的适应性计算加速平台,或ACAP设备,真的会发光。所以我没有足够的时间讨论这个设备的关键创新。我的意思是,有新的ARM处理器,和有一个网络芯片数据在设备移动,硬化内存控制器。还有,你知道,作为PCIe创4。我想关注的一个领域是人工智能引擎。
所以VLIW的AI引擎是一个数组/ SIMD处理器。现在在我们的第一个设备,有300的设备。有大量的这些VLIW处理器之间的互连。你可以进入织物创建自定义内存层次结构来养活这野兽。和我们要最终编程这是使用MATLAB仿真软件并利用模型作曲家,所有发生的事情。金宝app
所以你得到的ACAP设备?这是一个基准GoogLeNet two-millisecond延迟的约束。所以我们做了比较。所以,艺术gpu的状态。和我们现有的解决方案,我提到的XDNN DSA,分类每秒4000图片。好吧?这优于现有的gpu。但随着ACAP设备,你去每秒22000图片。这是一个相当的改善。但它甚至变得更好。
所以Xilinx我们所说的印刷技术,看着网络,找出不同的分支网络,它可以切断,并量化不同部分的算法。我们可以获得更好的性能。所以你可以得到1.3 x 8 x更多改善性能。你可以达到每秒30000图像ACAP设备。这很好。
好吧。怎么需要适应的工具来利用这些技术和满足这些应用的需求吗?好吧,首先,我希望能够做云计算设计条目。最近,我有机会使用MATLAB在线。它是令人惊异的。三秒钟,你,使用MATLAB。它不能得到任何比这更简单。对吧?但是有一件事失踪,这是模型。金宝app所以我真的很期待。
另外,你看到在ADAS的例子中,有系统级约束来自客户,对吧?带宽、延迟和力量。这些都需要输入编译器。现在,编译器的输入时钟频率。对吧?同时,你需要知道你要云或边缘。我们可以根据这个做出决定。所以我们需要提高编译器。
既然你会做基于云的条目,您可以利用FPGA硬件已经在云上,像亚马逊F1。许多其他的云供应商部署fpga。但是想象一下你分析你的代码,你打了一个热点。MATLAB也许会说,哦,我们有一个加速版本。已经可以在云端。您继续使用。
我们需要更高级别的抽象模型。金宝app例如,我给你的数字预失真设计开始。这是一个13000块的设计。我们相信这将是一个块模型未来的作曲家。利用人工智能引擎。
最后,我们希望您能够利用这些特定领域广泛的架构。像我展示你的图像分类引擎,您应该能够添加你的特殊酱料,所以你不需要改造。和你不需要处理的所有细节的I / O设备。我认为这一切都可能发生与MathWorks通过联合协作。最后,我们可以提供给你的是一个可部署的设计,它使用的所有计算资源ACAP设计边缘和云。
所以不用说,我们看到很多创新在过去的20年。基于模型的设计比以往任何时候都更重要的是管理的复杂性和提高生产力。Xilinx将继续大力投资在基于模型的设计中,因为我们相信这是一个自然的和富有成效的入站设备。原因我之前提到的,适应性强的设备有一个明显的优势在ML, ADAS,和5克,以满足性能、延迟和功率要求我们的客户。
最后,我们认为工具的交集,硅,和这些平台将提供一个拐点AI收养。所以,不管你是一个人工智能专家或只是学习人工智能第一次,灵感来自于丰富的谈话,我们期待着与你和我们的合作伙伴,MathWorks,在你的下一个设计。谢谢你!
(掌声)
您可以在欧什一张网站来自der folgenden Liste auswahlen:
所以erhalten您死bestmogliche Leistung der汪汪汪的网站
民意调查您毛皮死bestmogliche Website-Leistung死网站中国毛皮(auf Chinesisch奥得河Englisch)。安德利果汁landesspezifische网站冯MathWorks信德毛皮Besuche冯Ihrem Standort来自不optimiert。