机器学习是一种数据分析技术,它教会计算机做人类和动物天生具备的事情:从经验中学习。机器学习算法使用计算方法直接从数据中“学习”信息,而不依赖于预先确定的方程作为模型。随着可供学习的样本数量的增加,算法自适应地提高了它们的性能。深度学习是一种专业的机器学习形式。
机器学习算法在数据中发现自然模式,从而产生洞察力,帮助您做出更好的决策和预测。它们每天都被用于在医疗诊断、股票交易、能源负荷预测等方面做出关键决策。例如,媒体网站依靠机器学习筛选数百万个选项,为您推荐歌曲或电影。零售商使用它来了解客户的购买行为。
考虑到机器学习时,你有一个复杂的任务或问题涉及大量的数据和大量的变量,但没有现有的公式或方程。例如,如果您需要处理以下情况,机器学习是一个很好的选择:
手写规则和方程式与人脸识别和语音识别一样过于复杂。
任务规则不断变化,就像从交易记录中检测欺诈一样。
数据的性质一直在变化,而程序需要适应——就像自动交易、能源需求预测和预测购物趋势一样。
机器学习使用两种技术:监督学习,它根据已知的输入和输出数据训练模型,以便预测未来的输出,以及无监督学习,它在输入数据中查找隐藏模式或内在结构。
监督机器学习建立一个模型,在存在不确定性的情况下根据证据进行预测。监督学习算法获取一组已知的输入数据和对数据(输出)的已知响应,并训练模型以生成对新数据响应的合理预测。如果您已经知道要预测的输出数据,请使用监督学习。
监督学习使用分类和回归技术来开发机器学习模型.
分类技术预测离散的响应——例如,电子邮件是真实的还是垃圾邮件,肿瘤是癌变的还是良性的。分类模型将输入数据分类。典型的应用包括医学成像、语音识别和信用评分。
如果可以将数据标记,分类或分成特定组或类,请使用分类。例如,用于手写识别的应用程序使用分类来识别字母和数字。在图像处理和计算机视觉中,无监督模式识别这些技术用于目标检测和图像分割。
执行分类的常用算法包括金宝app支持向量机(SVM),促进和装袋决策树,K最近的邻居,天真的贝叶斯,判别分析,逻辑回归,神经网络.
回归技术预测连续响应——例如,温度的变化或电力需求的波动。典型的应用包括电力负荷预测和算法交易。
如果您使用数据范围或响应的性质是实际数字,请使用回归技术,例如温度或直到设备的失效。
假设临床医生想要预测一个人在一年内是否会心脏病发作。他们有以前病人的数据,包括年龄、体重、身高和血压。他们知道以前的病人在一年内是否有心脏病发作。因此,问题在于将现有数据整合到一个模型中,从而预测一个新人在一年内是否会心脏病发作。
选择正确的算法似乎是不可避免的——有数十种有监督和无监督的机器学习算法,每一种都采用不同的学习方法。
没有最好的方法或一刀切。找到正确的算法在一定程度上只是反复试验,即使是经验丰富的数据科学家,如果不进行试验,也无法判断算法是否可行。但算法的选择还取决于您正在处理的数据的大小和类型、您希望从数据中获得的见解以及如何使用这些见解。
以下是一些关于在有监督和无监督机器学习之间选择的指导原则:
罗格斯大学艺术和人工智能实验室的研究人员想知道计算机算法是否能像人类一样容易地按风格、流派和艺术家对绘画进行分类。他们首先通过识别视觉特征对绘画风格进行分类。他们开发的算法以60%的准确率对数据库中的绘画风格进行分类,优于典型的非专家人类。
研究人员假设,对风格分类(有监督学习问题)有用的视觉特征也可以用来确定艺术影响(无监督问题)。
他们使用在谷歌图像上训练的分类算法来识别特定的物体。他们对来自66位不同艺术家的1700多幅作品进行了算法测试,这些作品历时550年。该算法很容易识别出相关作品,包括迭戈·贝拉斯克斯的《教皇英诺森十世画像》对弗朗西斯·培根的《贝拉斯克斯对教皇英诺森十世画像的研究》的影响
办公楼、医院和其他大型商业建筑中的供暖、通风和空调(HVAC)系统通常效率低下,因为它们没有考虑天气模式的变化、能源成本的变化或建筑的热特性。
BuildingIQ基于云的软件平台解决了这个问题。该平台使用先进的算法和机器学习方法,连续处理来自电能表、温度计、暖通空调压力传感器以及天气和能源成本的千兆字节的信息。特别是,机器学习被用来分割数据,并确定燃气、电力、蒸汽和太阳能对加热和冷却过程的相对贡献。BuildingIQ平台使大型商业建筑正常运行时的HVAC能耗降低10-25%。
英国皇家汽车联盟拥有800多万会员,是英国最大的汽车组织之一,为私人和商务司机提供道路援助、保险和其他服务。
为了能够对路边事故做出快速反应,减少碰撞,降低保险成本,RAC开发了一种车载碰撞感应系统,该系统使用先进的机器学习算法来检测低速碰撞,并将这些事件与更常见的驾驶事件区分开来,例如超速行驶或坑洞。独立测试表明,RAC系统在检测测试碰撞时的准确率为92%。