机器学习是一种数据分析技术,它教会计算机做人类和动物天生具备的事情:从经验中学习。机器学习算法使用计算方法直接从数据中“学习”信息,而不依赖于预先确定的方程作为模型。随着可供学习的样本数量的增加,算法自适应地提高了它们的性能。深度学习是机器学习的一种特殊形式。
机器学习算法从数据中找到自然模式,从而产生洞察力,帮助你做出更好的决策和预测。它们每天都被用于医疗诊断、股票交易、能源负荷预测等方面的关键决策。例如,媒体网站依靠机器学习从数百万个选项中筛选,给你推荐歌曲或电影。零售商用它来洞察顾客的购买行为。
当你有一个复杂的任务或问题,涉及大量数据和许多变量,但没有现有的公式或方程时,可以考虑使用机器学习。例如,如果你需要处理以下情况,机器学习就是一个不错的选择:
手写的规则和方程式太复杂了——就像人脸识别和语音识别一样。
任务的规则是不断变化的——就像从交易记录中检测欺诈一样。
数据的性质一直在变化,而程序需要适应——就像自动交易、能源需求预测和预测购物趋势一样。
机器学习使用两种技术:监督式学习,它根据已知的输入和输出数据训练一个模型,以便它能预测未来的输出无监督学习,它可以在输入数据中找到隐藏的模式或内在结构。
监督机器学习建立一个模型,在存在不确定性的情况下,基于证据进行预测。监督学习算法采用已知的输入数据集和已知的对数据(输出)的响应,并训练模型生成对新数据响应的合理预测。如果您已经知道要预测的输出数据,那么就使用监督学习。
监督学习使用分类和回归技术进行开发机器学习模型.
分类技术预测离散的响应——例如,电子邮件是真实的还是垃圾邮件,肿瘤是癌变的还是良性的。分类模型将输入数据分类。典型的应用包括医学成像、语音识别和信用评分。
如果您的数据可以被标记、分类或分成特定的组或类,请使用分类。例如,手写识别应用程序使用分类来识别字母和数字。在图像处理和计算机视觉中,无监督模式识别技术用于目标检测和图像分割。
常用的分类算法包括金宝app支持向量机,提高了和袋装决策树,k最近的邻居,朴素贝叶斯,判别分析,逻辑回归,神经网络.
回归技术预测连续响应——例如,温度的变化或电力需求的波动。典型的应用包括电力负荷预测和算法交易。
如果您处理的是一个数据范围,或者响应的性质是一个实数,如温度或设备故障前的时间,则使用回归技术。
假设临床医生想要预测一个人在一年内是否会心脏病发作。他们有以前病人的数据,包括年龄、体重、身高和血压。他们知道以前的病人在一年内是否有心脏病发作。因此,问题在于将现有数据整合到一个模型中,从而预测一个新人在一年内是否会心脏病发作。
无监督学习发现数据中隐藏的模式或内在结构。它用于从没有标记响应的输入数据组成的数据集中得出推论。
聚类是最常见的无监督学习技术。它用于探索性数据分析,以发现数据中的隐藏模式或分组。申请聚类分析包括基因序列分析、市场研究和对象识别。
例如,如果一家手机公司想优化他们建造手机信号塔的位置,他们可以使用机器学习来估计依赖信号塔的人群集群的数量。一部手机一次只能与一个信号塔通话,因此该团队使用聚类算法来设计手机信号塔的最佳位置,以优化客户群体的信号接收。
用于执行集群的常见算法包括k - means, k-medoids,分层聚类,高斯混合模型,隐马尔可夫模型,自组织映射,模糊c均值聚类,减法聚类.
选择正确的算法似乎是不可避免的——有数十种有监督和无监督的机器学习算法,每一种都采用不同的学习方法。
没有最好的方法,也没有一刀切的办法。找到正确的算法在一定程度上需要反复试验——即使是经验丰富的数据科学家也无法在不进行试验的情况下判断算法是否可行。但是算法选择也取决于你所处理的数据的大小和类型,你想从数据中获得的见解,以及这些见解将如何被使用。
以下是一些关于在有监督和无监督机器学习之间选择的指导原则:
罗格斯大学(Rutgers University)艺术与人工智能实验室(Art and Artificial Intelligence Laboratory)的研究人员想知道,计算机算法能否像人类一样,轻松地根据风格、流派和艺术家对画作进行分类。他们首先通过识别视觉特征来对一幅画的风格进行分类。他们开发的算法对数据库中的绘画风格进行分类的准确率为60%,超过了典型的非专业人士。
研究人员假设,对风格分类(有监督学习问题)有用的视觉特征也可以用来确定艺术影响(无监督问题)。
他们使用谷歌图像训练的分类算法来识别特定的目标。他们在66位不同艺术家的1700多幅画作上测试了算法,这些画作的创作时间跨度为550年。算法很容易识别出相关作品,包括迭戈·委拉斯奎兹的《英诺森十世教皇肖像》(Portrait of Pope Innocent X)对弗朗西斯·培根(Francis Bacon)的《贝拉斯奎兹的英诺森十世教皇肖像研究》(Study After Velazquez’s Portrait of Pope Innocent X)的影响。
办公楼、医院和其他大型商业建筑的供暖、通风和空调(HVAC)系统往往效率低下,因为它们没有考虑到不断变化的天气模式、可变的能源成本或建筑的热性能。
BuildingIQ基于云的软件平台解决了这个问题。该平台使用先进的算法和机器学习方法,连续处理来自电能表、温度计、暖通空调压力传感器以及天气和能源成本的千兆字节的信息。特别是,机器学习被用来分割数据,并确定燃气、电力、蒸汽和太阳能对加热和冷却过程的相对贡献。BuildingIQ平台使大型商业建筑正常运行时的HVAC能耗降低10-25%。
英国皇家汽车联盟拥有800多万会员,是英国最大的汽车组织之一,为私人和商务司机提供道路援助、保险和其他服务。
为了能够对路边事故做出快速反应,减少碰撞事故,并降低保险成本,RAC开发了一种车载碰撞传感系统,该系统使用先进的机器学习算法来检测低速碰撞,并将这些事件与更常见的驾驶事件(如超速行驶或坑洞)区分开来。独立测试表明,RAC系统检测测试崩溃的准确率为92%。