主要内容

选择一个多层神经网络训练功能

很难知道哪些训练算法将是最快的对于一个给定的问题。这取决于许多因素,包括问题的复杂性,在训练集数据点的数量,重量和偏见在网络的数量,错误的目标,和网络是否被用于模式识别(判别分析)或函数近似(回归)。本节比较了各种训练算法。前馈网络是训练六个不同的问题。三个的问题下降模式识别分类和三人落在函数逼近一类。两个问题是简单的“玩具”的问题,而其他四个是“现实世界”的问题。与各种不同的网络架构和复杂性,和网络训练的各种不同的精度水平。

下表列出了算法测试和缩写用于识别它们。

首字母缩写

算法

描述

LM

trainlm

Levenberg-Marquardt

高炉煤气

trainbfg

高炉煤气拟牛顿

RP

trainrp

有弹性的反向传播

SCG

trainscg

按比例缩小的共轭梯度

CGB

traincgb

共轭梯度与鲍威尔/ Beale重启

CGF

traincgf

Fletcher-Powell共轭梯度

本金保证产品

traincgp

Polak-Ribiere共轭梯度

OSS

trainoss

sec一步

GDX

traingdx

可变学习速率反向传播

下表列出了六个基准问题和网络的一些特点,训练过程,和电脑使用。

问题标题

问题类型

网络结构

错误的目标

电脑

函数逼近

1-5-1 0.002

Sun Sparc 2

奇偶校验

模式识别

3-10-10-1 0.001

Sun Sparc 2

引擎

函数逼近

2-30-2 0.005

太阳4000年企业

癌症

模式识别

9-5-5-2 0.012

Sun Sparc 2

胆固醇

函数逼近

21-15-3 0.027

Sun Sparc 20

糖尿病

模式识别

8-15-15-2 0.05

Sun Sparc 20

罪恶的数据集

第一个基准数据集是一个简单的函数逼近问题。1-5-1网络tansig转移函数在隐藏层和输出层的线性传递函数,用来近似一个周期的正弦波。下表总结了结果使用九个不同的培训网络训练算法。表中的每个条目代表30种不同的试验,在不同的随机初始权重被用在每一个试验。在每种情况下,网络训练,直到平方误差小于0.002。这个问题最快的算法是Levenberg-Marquardt算法。平均为四倍的速度比最快的算法。这类型的问题,最好LM算法适应于网络函数逼近问题已经不到一百重量和近似必须非常准确。

算法

平均时间(s) 分钟。时间(年代) Max。时间(年代) 性病(s)。

LM

1.14 1.00 0.65 1.83 0.38

高炉煤气

5.22 4.58 3.17 14.38 2.08

RP

5.67 4.97 2.66 17.24 3.72

SCG

6.09 5.34 3.18 23.64 3.81

CGB

6.61 5.80 2.99 23.65 3.67

CGF

7.86 6.89 3.57 31.23 4.76

本金保证产品

8.24 7.23 4.07 32.32 5.03

OSS

9.64 8.46 3.97 59.63 9.79

GDX

27.69 24.29 17.21 258.15 43.65

各种算法的性能影响可以近似的精度要求。这是如下图所示,情节均方误差与执行时间(平均在30试验)对几个具有代表性的算法。在这里你可以看到LM算法的误差随时间减少更快比其他算法。

均方误差和LM, SCG,股票指数型基金OSS,简称eft算法

算法进一步之间的关系见下图,这情节收敛所需的时间与均方误差收敛的目标。在这里你可以看到,随着错误的目标是减少,提供的改善LM算法变得越来越明显。一些算法的错误表现更好的目标是减少(LM和蓄热),和其他算法降低错误的目标是减少股票指数型基金(OSS和简称eft)。

时间与均方误差LM、高炉煤气、SCG, GDX CGB, OSS, RP算法

奇偶校验数据集

第二个基准问题是一个简单的模式识别的平价problem-detect 3-bit号码。如果输入模式的的数量是奇数,那么网络应该输出一个1;否则,它应该输出一个1。网络用于这个问题是3-10-10-1网络tansig每一层的神经元。下表总结了结果与九种不同算法训练该网络。表中的每个条目代表30种不同的试验,在不同的随机初始权重被用在每一个试验。在每种情况下,网络训练,直到平方误差小于0.001。最快的算法对于这个问题是有弹性的反向传播算法,虽然共轭梯度算法(特别是,按比例缩小的共轭梯度算法)几乎一样快。注意,LM算法不会在这个问题上表现良好。一般来说,LM算法不执行在模式识别问题是函数逼近问题。 The LM algorithm is designed for least squares problems that are approximately linear. Because the output neurons in pattern recognition problems are generally saturated, you will not be operating in the linear region.

算法

平均时间(s) 分钟。时间(年代) Max。时间(年代) 性病(s)。

RP

3.73 1.00 2.35 6.89 1.26

SCG

4.09 1.10 2.36 7.48 1.56

本金保证产品

5.13 1.38 3.50 8.73 1.05

CGB

5.30 1.42 3.91 11.59 1.35

CGF

6.62 1.77 3.96 28.05 4.32

OSS

8.00 2.14 5.06 14.41 1.92

LM

13.07 3.50 6.48 23.78 4.96

高炉煤气

19.68 5.28 14.19 26.64 2.85

GDX

27.07 7.26 25.21 28.52 0.86

与函数逼近问题,各种算法的性能受到网络的精度要求。这是如下图所示,情节均方误差对一些典型算法的执行时间。LM算法收敛迅速在某种程度上,但只有在其他算法已经聚集。

均方误差和LM, SCG,股票指数型基金CGB,简称eft算法

算法进一步之间的关系见下图,这情节收敛所需的时间与均方误差收敛的目标。你可以看到,一些算法降低错误的目标是减少(OSS和蓄热)。

时间与均方误差LM、高炉煤气、SCG, GDX CGB, OSS, RP算法

发动机数据集

第三基准问题是一个现实的函数近似或非线性回归问题。数据从一个引擎的操作。输入到网络是发动机转速和燃料水平和网络输出转矩和排放水平。网络用于这个问题与tansig 2-30-2网络隐层神经元和线性输出层的神经元。下表总结了结果与九种不同算法训练该网络。表中的每个条目代表30种不同试验股票指数型基金(10试验RP,简称eft因为时间限制),用不同的随机初始权重每个审判。在每种情况下,网络训练,直到平方误差小于0.005。最快的算法,这个问题是LM算法,其次是bfg拟牛顿算法和共轭梯度算法。虽然这是一个函数逼近问题,LM算法不一样明显优越的罪恶的数据集。在这种情况下,网络中的重量和偏见的数量远远大于一个用于罪恶问题(152和16),和LM算法的优势减少网络参数数量的增加。

算法

平均时间(s) 分钟。时间(年代) Max。时间(年代) 性病(s)。

LM

18.45 1.00 12.01 30.03 4.27

高炉煤气

27.12 1.47 16.42 47.36 5.95

SCG

36.02 1.95 19.39 52.45 7.78

CGF

37.93 2.06 18.89 50.34 6.12

CGB

39.93 2.16 23.33 55.42 7.50

本金保证产品

44.30 2.40 24.99 71.55 9.89

OSS

48.71 2.64 23.51 80.90 12.33

RP

65.91 3.57 31.83 134.31 34.24

GDX

188.50 10.22 81.59 279.90 66.67

下面的图块均方误差和一些典型的算法执行时间。LM算法的性能改善随着时间的推移,相对于其他算法。

均方误差和LM, SCG,股票指数型基金RP,简称eft算法

算法进一步之间的关系见下图,这情节收敛所需的时间与均方误差收敛的目标。又可以看到,一些算法降低错误的目标是减少股票指数型基金(简称eft和RP),而LM算法改进。

时间与均方误差LM、高炉煤气、SCG, GDX CGB, OSS, RP算法

癌症数据集

第四个基准问题是一个现实的模式识别(或非线性判别分析)问题。网络的目标是将肿瘤为良性或恶性基于细胞的显微镜检查收集的描述。输入属性包括丛厚度、均匀性的细胞大小、细胞形状、边缘附着,和裸核的频率。数据来自威斯康辛大学医院,麦迪逊,从威廉·h·Wolberg博士。网络用于这个问题是9-5-5-2网络与tansig神经元在各层。下表总结了结果与九种不同算法训练该网络。表中的每个条目代表30种不同的试验,在不同的随机初始权重被用在每一个试验。在每种情况下,网络训练,直到平方误差小于0.012。几个运行无法收敛的一些算法,所以只有75%的从每个算法被用来获取数据。

共轭梯度算法和弹性反向传播提供快速收敛,LM算法也相当快。与奇偶校验数据集,LM算法不执行在模式识别问题是函数逼近问题。

算法

平均时间(s) 分钟。时间(年代) Max。时间(年代) 性病(s)。

CGB

80.27 1.00 55.07 102.31 13.17

RP

83.41 1.04 59.51 109.39 13.44

SCG

86.58 1.08 41.21 112.19 18.25

本金保证产品

87.70 1.09 56.35 116.37 18.03

CGF

110.05 1.37 63.33 171.53 30.13

LM

110.33 1.37 58.94 201.07 38.20

高炉煤气

209.60 2.61 118.92 318.18 58.44

GDX

313.22 3.90 166.48 446.43 75.44

OSS

463.87 5.78 250.62 599.99 97.35

下面的图块均方误差和一些典型的算法执行时间。这个问题没有尽可能多的变化表现在之前的问题。

均方误差与高炉煤气,OSS,股票指数型基金CGB,简称eft算法

算法进一步之间的关系见下图,这情节收敛所需的时间与均方误差收敛的目标。又可以看到,一些算法降低错误的目标是减少(OSS和BFG)而LM算法改进。这是典型的LM算法对任何问题,其性能提高相对于其他算法的目标是减少错误。

时间与均方误差LM、高炉煤气、SCG, GDX CGB, OSS, RP算法

胆固醇数据集

第五个基准问题是一个现实的近似函数(或非线性回归)问题。网络的目标是预测胆固醇(低密度脂蛋白,高密度脂蛋白vldl)基于21光谱测量组件。数据获得博士尼尔·Purdie化学系,俄克拉何马州立大学(PuLu92]。网络用于这个问题是21-15-3网络tansig隐藏层神经元和线性输出层神经元。下表总结了结果与九种不同算法训练该网络。表中的每个条目代表20个不同试验股票指数型基金(10试验RP,简称eft),用不同的随机初始权重每个审判。在每种情况下,网络训练,直到平方误差小于0.027。

按比例缩小的共轭梯度算法具有最好的性能在这个问题上,尽管所有的共轭梯度算法表现良好。LM算法也不执行这个函数逼近问题就像在其他两个。这是因为网络中的重量和偏见的数量再次增加(378年与152年与16)。随着参数的数量增加,LM算法所需的计算以几何级数增加。

算法

平均时间(s) 分钟。时间(年代) Max。时间(年代) 性病(s)。

SCG

99.73 1.00 83.10 113.40 9.93

本金保证产品

121.54 1.22 101.76 162.49 16.34

CGB

124.06 1.2 107.64 146.90 14.62

CGF

136.04 1.36 106.46 167.28 17.67

LM

261.50 2.62 103.52 398.45 102.06

OSS

268.55 2.69 197.84 372.99 56.79

高炉煤气

550.92 5.52 471.61 676.39 46.59

RP

1519.00 15.23 581.17 2256.10 557.34

GDX

3169.50 31.78 2514.90 4168.20 610.52

下面的图块均方误差和一些典型的算法执行时间。对于这个问题,您可以看到,LM算法能够使均方误差较低水平比其他算法。SCG与RP算法提供初始收敛速度最快的。

均方误差和LM, SCG,股票指数型基金RP,简称eft算法

算法进一步之间的关系见下图,这情节收敛所需的时间与均方误差收敛的目标。可以看到,LM和BFG算法提高相对于其他算法误差的目标是减少。

时间与均方误差LM、高炉煤气、SCG, GDX CGB, OSS, RP算法

糖尿病数据集

第六个基准问题是一个模式识别问题。网络的目的是决定一个人是否有糖尿病,基于个人资料(年龄、怀孕次数)和医疗检查的结果(如血压、体重指数、葡萄糖耐量试验的结果,等等)。数据来自加州大学欧文分校,机器学习的数据基础。这个问题是一个8-15-15-2网络使用的网络与tansig神经元在各层。下表总结了结果与九种不同算法训练该网络。表中的每个条目代表10个不同的试验中,在不同的随机初始权重被用在每一个试验。在每种情况下,网络训练,直到平方误差小于0.05。

共轭梯度算法和弹性反向传播提供快速收敛。结果在这个问题上是一致的与其他模式识别问题。RP算法适用的模式识别问题。这是合理的,因为算法旨在克服困难引起的训练和乙状结肠功能,具有非常小的斜坡时远离中心的操作点。对于模式识别问题,使用乙状结肠转移函数在输出层,和你想要的网络经营的尾巴乙状结肠函数。

算法

平均时间(s) 分钟。时间(年代) Max。时间(年代) 性病(s)。

RP

323.90 1.00 187.43 576.90 111.37

SCG

390.53 1.21 267.99 487.17 75.07

CGB

394.67 1.22 312.25 558.21 85.38

本金保证产品

415.90 1.28 320.62 614.62 94.77

OSS

784.00 2.42 706.89 936.52 76.37

CGF

784.50 2.42 629.42 1082.20 144.63

LM

1028.10 3.17 802.01 1269.50 166.31

高炉煤气

1821.00 5.62 1415.80 3254.50 546.36

GDX

7687.00 23.73 5169.20 10350.00 2015.00

下面的图块均方误差和一些典型的算法执行时间。与其他问题,你会发现SCG和RP快速初始收敛,而LM算法能够提供最终误差较小。

均方误差与时间LM、SCG RP, BFG算法

算法进一步之间的关系见下图,这情节收敛所需的时间与均方误差收敛的目标。在这种情况下,您可以看到BFG算法降低错误的目标是减少,而LM算法改进。RP算法是最好的,除了最小的错误目标,SCG更好。

时间与均方误差LM、高炉煤气、SCG, GDX CGB, OSS, RP算法

总结

有几种算法可以从实验推导出描述特征。在函数逼近问题,一般来说,网络包含几百权重,Levenberg-Marquardt算法收敛速度最快。这种优势尤其明显,如果非常准确的培训是必需的。在许多情况下,trainlm能够获得较低的均方误差比任何其他算法进行测试。然而,随着网络中权重的数量增加,的优势trainlm减少。此外,trainlm性能是相对贫穷的模式识别问题。的存储需求trainlm比其他算法更大考验。

trainrp函数是最快的算法在模式识别问题。然而,它不执行函数逼近问题。它的性能也降低错误的目标是减少。这个算法相对较小的内存需求相比其他算法。

特别是共轭梯度算法trainscg似乎表现良好在各种各样的问题,尤其是网络与大量的重量。SCG算法几乎一样快LM算法在函数逼近问题(大型网络速度)和几乎一样快trainrp在模式识别问题。其性能不降低尽快trainrp性能并减少错误时。共轭梯度算法的内存需求相对温和。

的性能trainbfg类似的trainlm。它不需要尽可能多的存储trainlm,但所需的计算,并与网络的规模呈几何级数增长,因为相当于一个必须在每步迭代计算矩阵的逆。

可变学习速率算法traingdx通常是比其他方法要慢得多,和有相同的存储需求trainrp,但它仍然可以用于一些问题。在某些情况下,最好收敛较慢。例如,当使用早期停止你可以有不一致的结果,如果你使用一个算法收敛速度过快。你可能会过度的验证集的误差最小化。