정규화를통한과적합방지

정규화기법은예측모델에서통계적과적합을방지하는용도로사용됩니다。일반적으로정규화알고리즘은최소화에모델의계수를추가하거나거칠기벌점을포함시키는등복잡도에벌점을적용하는방식으로작동합니다。정규화알고리즘은모델에추가정보를도입함으로써모델을보다간결하고정확하게만들어서다중공선성및중복된예측변수문제를처리할수있습니다。

널리사용되는정규화기법에는능형회귀(Tikhonov정규화라고도함),套索및신축망알고리즘,축소중심방법,추적플롯및교차검증된평균제곱오차등이있습니다。적합도메트릭으로서아카이케정보기준(AIC)을적용할수도있습니다。

각정규화기법은특정사용사례에유용하게사용됩니다。

  • 套索는L1노름을사용하며,개별계수값을완전히0쪽으로강제하는경향이있습니다。拉索따라서는특징선택알고리즘으로사용하기에좋습니다。套索는적은개수의키변수를빠르게식별합니다。
  • 능형회귀는L2노름을계수로사용합니다(제곱오차의합을최소화함)。능형회귀는계수축소를많은수의계수에걸쳐확산시키는경향이있습니다。모델에많은수의계수를포함해야하는경우능형회귀가좋은기법이될수있습니다。
  • 신축망은추가예측변수를식별하지못하는套索를보완할수있습니다。

정규화는모델이보다적은예측변수를사용하도록강제한다는점에서특징선택과관련이있습니다。정규화방법에는몇가지뚜렷한이점이있습니다。

  • 정규화기법은대부분의특징선택방법(일변량특징선택제외)보다훨씬큰데이터셋에대해연산을수행할수있습니다。套索및능형회귀는수천개내지는수만개에이르는변수를포함하는데이터셋에적용할수있습니다。
  • 정규화기법은특징선택보다정확한예측모델을생성하는경우가많습니다。특징선택은이산공간에대해연산을수행하는방면정규화는연속공간에대해연산을수행합니다。따라서정규화는모델을미세조정할수있으며더정확한추정값을생성할수있습니다。

하지만특징선택방법에도이점이있습니다。

  • 특징선택은보다직관적이고다른사람에게설명하기가쉽습니다。따라서결과를타인과공유할때적용한방법에대해설명해야하는경우에유용합니다。
  • MATLAB®统计和机器学习工具箱™는널리사용되는모든정규화기법을지원하며,선형회귀,로지스틱회귀,서포트벡터머신,선형판별분석이가능합니다。부스팅결정트리와같은다른모델유형을사용할때는특징선택을적용해야합니다。

요점

  • 정규화는특징선택과함께예측모델에서통계적과적합을방지하는용도로사용됩니다。
  • 정규화는연속공간에대해연산을수행하므로다양한유형의선형모델링이필요한머신러닝문제에서이산특징선택보다좋은성과를보일수있습니다。

예시시나리오

암연구를진행하고있다고가정해보겠습니다。암환500명자의유전자서열을바탕으로15000개의유전자중에서어느것이질병악화에유의미한영향을주는지확인하고자합니다。런타임이중요한경우에는최소잉여도-최대연관성,이웃성분분석,일변량(런타임이중요한경우)과같은특징순위지정방법을적용할수있습니다。이처럼변수가많은경우에는순차적특징선택만이비실용적입니다。또는정규화를사용하여모델을탐색할수도있습니다。능형회귀는계수를충분히빠르게완전히0쪽으로강제하지않으므로사용할수없습니다。500개가넘는유전자를식별해야하므로套索도사용할수없습니다。신축망을사용하는것은가능할수있습니다。

참조:특징선택,머신러닝,지도학습,선형모델,AutoML

정규화가함수y = f (x)에미치는영향

머신러닝의난점:최적의분류모델선택및과적합방지