詹姆斯·马丁,壳牌国际公司
阿姆贾德乔德里,壳牌国际
机器学习和深入学习可用于自动执行一系列任务。壳牌和卓越的高级分析中心(AACoE)使用这些技术来加快处理速度,同时提高可靠性。在地理信息,地形分类可以使用标记的卫星图像丰富的训练数据集来改善。在大(全景)植物影像自动标签检测也导致更有效的维护。
James和Amjad会展示MATLAB®使使用这些技术变得容易。通过最少的设置,MATLAB并行服务器™允许团队在云中的多个远程gpu上训练网络。MATLAB Production Server™允许开发团队使用最少的物理硬件(如智能手机)来创建操作人员可以使用的瘦web客户机。
壳牌利用所有这些技术和工具,使其工程师可以轻松地,轻松地使用最新的调查结果。
在过去四年左右的时间里,高级分析在我们的工作方式中扮演着越来越重要的角色。今天,我想特别向大家介绍一下深度学习,以及在MATLAB中,我们如何利用一些深度学习工具来改进我们的创新渠道。有趣的是,Rick的主题演讲提到了迁移学习和语义分割。这就是我今天要讲的一些例子。
当然,作为壳牌,我们总是不得不忍受一个谨慎注意。所以我会离开这个了五秒钟左右的时间,谁想要阅读。好。
所以今天,我要组织我的谈话如下。我要去只是您简要介绍壳牌和服务和产品,我们涵盖的范围内。下载188bet金宝搏我也来谈谈我们的创新和输水管道,我们如何尝试到正确的IT维护的最终产品带来创新的理念,特别是在高级分析,通过。下载188bet金宝搏然后在那里MATLAB适合这一点。
然后我将讨论两个用例。正如我提到的,首先是工业图像中的标签识别,然后是高光谱卫星图像中的地形识别。听起来很酷,所以我把它放了进去。最后是下一步,我们从哪里得到我们得到的结果。
好的。所以,这就是我们总结业务的幻灯片的最新的化身。所以,我们是一个非常广泛的公司。我们范围内的所有从我最初加盟该公司,这是在上游勘探的方式,试图找出油气藏。然后通过发展,我们试着钻水井提取的,通过随后的地方,我们尽量和工艺和完善的产品,通过运输和贸易,我们则提供这些产品的各种最终用户更下游的活动,这可能下载188bet金宝搏包括零售前院,航空,以及润滑剂。
如果我们重新利用这些信息,我们可以突出在其中分析带来的是组织内的瞬间值。还有 - 哦,这就是它 - 我真的希望让人们关注都在各种颜色的圆圈。因此,这些地方的分析是打我们的组织中的主导作用活跃的地区。我们可能会结束有相当大的变化,使相当大的影响到当前的工作流程和工作方式。两个蓝色的圆是在那里我将进一步探讨了一下。
因此,这是我们的创新漏斗为黄色。我们有一系列在顶部运行的决定门,通过D0到D4。基本上,我们尝试,并采取从左边的思想和观念贯穿到右边。
在底部,你可以看到两个重叠的三角形,我们有一个overlapping--,我们从一个数字化的团队,这是我目前坐,通过对IT适当的运动。所以
我们尝试和做的是在确定范围和创新阶段,我们参与其中。我们生产的POC概念,最小可行的产品,尝试和证明的价值。下载188bet金宝搏然后逐渐地,它被引入,我们尝试和范围出完整的部署解决方案和维护策略,这样我们就可以完全交付价值给业务。金宝搏官方网站
我想使人们关注的另一件事是所有的点。所以it's--认为它是几乎像的想法数量在左侧的组织标准化迹象。而我想强调的是我们每个决策门大客户流失完全确定,所以它是关于做完全组织内务必范围。然后,当你进行到底得到,我们集中你的资源,确实,在大多数高价值的解决方案。金宝搏官方网站
哪里MATLAB增加价值?这是非常快速原型。我们与MathWorks的咨询,这是我们在杠杆作用,以提高我们的生产力的积极协议。
有一个巨大的一套例子,文档,我们要MATLAB内维持。而由于巨大的焦点是MathWorks公司已经把上集成一些深学习技术,比方说,在过去的一年,我们能够对一些在那个空间中的这些最新发展的杠杆作用,同时还能够访问此有利积压的模块。我们真的很喜欢的Web应用程序交付,所以我们绕过了很多周围安装MATLAB的版本,让我们的一些运行的软件的问题。
所以在这里,我们已经得到了我们生产的Web应用程序的两个例子。就在右上方是沥青测试的Web应用程序。而在左下方你也可以看到什么,我将在以后讨论先睹为快,这是地形分类作为一个Web应用程序。
我们也用MDCS做了一些实验,也就是MATLAB分布式计算服务器。这让我们能够利用云上非常强大的gpu。我们主要用它来训练我们的一些深度学习模型。
因此,在今年而言,我们已经有壳牌与MATLAB不少里程碑。现在,我们已经finally--因为壳牌有时也有一点管理员的事情,它已经相当难以得到企业的不同部分的许可证。所以,现在我们有一个企业范围内的交易。因此,这意味着任何聪明的人,无论他们来自加入该组织,终于可以高效地使用MATLAB迅速,在理论上。
我们已经得到了第二MPS许可证。正如我说的,MDCS,我认为,将是一个日益重要的特征。我们正在寻找使这一更加符合我们的战略。
正如我所说的,MathWorks咨询公司非常有效地利用了我们的时间。我们现在也希望利用我们在班加罗尔的一些资源,让我们能够夜以继日地推进项目。
好的。所以这是第一个例子。这是标签识别。所以你可以在后台看到的是一片工业设备。我认为这是一个泵。
但在下面,我想让你们注意的是,那个标签,那个标签。标签上有SAP代码。我们把这些图像都点缀在——它们都有地理标记——都点缀在一个工业环境中。我们想要做的是提取那个标签,在上面做OCR,然后把它链接到我们的SAP系统,因为我们可以从SAP系统中提取很多元数据。
所以,最初的方法,我们已经使用的R-CNN,一个区域卷积神经网络服用。因此,我们采取的图像。然后,我们,因为图像是非常大的,我们首先需要提取的一系列从图像区域的建议,然后将其送入CNN正确。
在我们的例子中,我们used--所以我觉得里克谈到AlexNet例子。所以,我们采用了VGD 16网络而不是,然后我们做了最后的三层为我们的宗旨迁移学习。并初步在这里,我们刚刚得到了两类问题。我们刚刚得到的标签或没有标签。
这是一些图片的样子。想几乎谷歌街景。于是就离开了那里,你可以看到它几乎就像它已经采取鱼眼镜头。所以首先我们需要一个失真校正应用到图像,这是内MATLAB完成。再联想到的〜的,输出几乎就像你站在一个盒子里,然后你有盒子的六个面看出来。
我们倾倒的顶部和底部的预测,我们只是保持水平脱颖而出的预测。然后我们喂的是通过对算法的区域提取部分。在这种情况下,我们稍微修改它,并使用了一种叫做Pdollar EdgeBox方法。但重要的是你可以看到的区域被很好地提取区域,其中可能有一个标签在那里。
好的。这些信息会被传送到CNN。现在我们只讨论它的训练。
因此,尽管你不需要太多的训练数据,但是,我们仍然有一些问题,试图有足够的训练数据集,以稳定的方式执行。所以我们把标签的定义扩展为符号。所以我们还包括符号,然后做数据扩充,进一步增加数据集,提供足够的数据,给你一个稳定的结果。
在右边你可以训练激活后则见。所以这就是网络最初支付之前的分类关注的一个很好的迹象。所以这很怪异的图像是告诉你它的主要重点是紫色的斑块。然后,这是算法的输出。
你可以看到室内场景和室外场景,不同的照明条件。你得到的是一个包围框,围绕着它认为的符号,抱歉,是什么符号和标签有一个相关的概率。
对于你们敏锐的眼睛来说,你可能会注意到那里有很多误报。我们想要做的是找出所有可能的选项,然后我们依靠OCR在此基础上过滤掉很多假阳性。
好的。所以我刚刚展示了迁移学习被用来识别标签工业的图像,然后将在上面运行OCR提取SAP代码。在运行时而言,只是给你一个想法,它的周围每个图像三到四分钟。现在,在这个特殊的使用情况下,我们可以与管理,这很好,但很明显,如果你想这是不会发生的实时反馈。
然而,如果你想走实时路线,有一些技术可以显著提高速度。举个例子,快速的R-CNNs,它能让你的速度提高100倍。
我们也在考虑增加更多的GPU,在MDCS上的大型GPU,以允许我们增加图像的分辨率大小。接下来,我想,很酷的一件事是,一旦我们把这个连接到SAP系统,我们如何把这些信息带回来,比如说,对于一个带着增强现实眼镜在网站上走来走去的人?我们如何将这些信息可视化呢?这可能是我们的一些客户感兴趣的一个令人兴奋的领域。
所以,我们使用的数据是从欧洲工业网站,我们已经从,尤其是亚洲的业务部门获得了相当多的兴趣了。因此,我们要与活动的那些行进行。
好的。所以接下来的例子是在高光谱卫星数据地形识别。因此,只要迅速的,为什么这个问题的值得解决,为什么我们费心的描述。
所以在上游,在勘探中,地震数据是我们所拥有的最重要的技术之一,以便在地下探测。例如,在底部这个不确定的中东地区,你可以看到它的广阔区域,对吧?而获取数据的成本,也就是把能量投入到地面并接收数据的成本,是非常高的。所以我们说的是每年几千万,每个调查。这是非常高的成本。
和地形类型,光滑与粗糙,例如,可以减少高达50%,影响了成本。所以,正因为如此,他们在我们的语言,对标签数据的真正理想的情况,但在他们的语言确实低效系统。因此,他们支付一个高度专业化的,高薪的个体来看待卫星图像和手工绘制周围崎岖地形的多边形,他们认为是崎岖的地形。
然后他们必须通过实地考察来证实这一点。所以必须有人飞到这个特定的沙漠地区,然后开着卡车到处跑。他们需要放下旗子来确认这确实是一个崎岖的地形。这是在调查之前。
所以,在我们这里,因为我们现在有很多的训练数据,我们认为,正确的。也许我们可以替换的东西全流程多一点计算机密集。因此,我们决定尝试这种语义分割方法。
这就是我们得到的数据。我们有三种类型的图像,航空摄影,雷达,和深度表面模型,DSM图像。由于2017年B的限制,我们需要做三个渠道,但在这种情况下是可以的。
这已与2018 A和B.现在有所改善,但我们在这里决定把它分成三个渠道上色的图像,我们这样做是如下。我们灰度化航拍,把在红色通道,雷达在绿色,等等。然后你结束了这些彩色的图像,你可以看到在右边。这是用于算法。
赛格特,它是什么?它通常用于自动驾驶汽车。想象一下左上角的道路场景,网络所做的就是把它输入进来然后它会把每个像素映射到一个类。
在顶部的例子中,你有,比如说,一个路面类,一个道路类,一个树类,等等。所以在我们的例子中,我们想要重新利用它,把它用在粗糙或光滑的地形上。这就是我们所做的。
我们现在有3万个例子数据集,但是我们,仅仅为了这项工作,就用了1000个例子。所以还有很大的改进空间。而且,与最上面的图相比,我们的网络结构更简单。
所以我们决定使用三个编码器和解码器部分。而在培训上的1000个测试实例,一个4 GB的GPU,这是相当小的方面,这是大约八学时培训时间。
所以这些都是结果。我removed--从颜色消失,分解它放回原来的图像。所以在上面你可以看到,在左边,航拍,然后雷达和DSM。然后在左边的底部,可以看到人,或在我们的情况下,地面实况,算法然后预测什么。
在这两种情况下,你都可以看到。因为它选择了我所选择的数据的快照,所以性能非常好。目前的结果是定性的,而不是定量的,尽管我们要做的是产生混淆矩阵和所有这些东西。但是表演很好。我们向终端客户展示了这一点,他们已经认为性能优于现有的工作流程。
我们允许客户通过web应用程序与数据交互,这就是您在这里看到的。有了左边的图片,客户可以很容易地进入URL,上传各种图片以及他们想要查看的感兴趣的区域。然后在右侧的推理步骤之后,你可以浏览不同的输入和输出图像,并覆盖地面真相,这样他们就可以知道结果意味着什么,他们对什么感到满意,对什么感到不满意。
好的。所以在接下来的步骤而言,这是非常喜欢的初步工作。因此,有很多未来的工作要做,假设我们能获得良好的资金在内部。所以一些我们要做的第一步是参数调整。
我们将开始寻找从我们的时刻,这是1000我们将添加更多的类以及其中增加训练的数据量。因此,我们有一个工具类,都市类,以及我们要添加到数据。你可以在上面看到那里的设施类的一个实例。
还有,我们刚刚quickly--它的应用程序只用了两天就作出这样的Web应用程序。所以,这与MathWorks的咨询有适当合作的真正力量。我们要进一步增加功能合并到Web应用程序,并提供客户想要的是什么。
在这个特殊的例子中,因为性能已经很好了,人们对此非常兴奋,所以有一点担心这将如何影响现有的工作流程。这包括工作人员。所以这次我们试图dual-integration策略,我们都提供这项技术同时也技能提升员工,这样他们就可以了解工作流程,了解这项技术,然后还可能想出新的想法和更好的工作方式,然后我们可以想出。我们在中东的一些单位显然对这项技术很感兴趣。但我们现在也收到了一些东南亚业务单位的兴趣。
好了,这是什么意思在未来的条款?内壳,它是所有关于知道的宏伟总体规划,然后您如何融入宏大的总体规划。所以在我们的例子中,我们有这些数字的主题。
所以,我们现在要确保我们的方式推动这一内部对准这些数字的主题,我们已经确定了他们三个。利用一切云,与MDCS高性能计算,再先进的分析。因此,例如,智能应用为基础的技术。
关于2018年的当务之急,我们希望继续部署MPS和MDCS。现在我们已经证明了其中一些解决方案的技术方面,但是我们现在需要看看证明业务价值方面。金宝搏官方网站正如我所说的,我们将进一步研究地形识别,标签识别。
但不幸的是,我今天不能谈论的东西,也属于地震范畴。所以我们目前正在研究非常陡峭的学习技术来尝试绘制地震数据,仅仅是地下的图像通过简单的卷积就可以得到油气分布,油气属性分布。因此,这是一个非常令人兴奋的领域,我们公司有相当一部分人也在关注这个领域。
好的。所以,这就是我说的话。我希望这是一个有趣的谈话。谢谢。
记录:2018年10月3日