Hopp til innhold

Gradientforsterkning

Fra Wikipedia, den frie encyklopedi

Gradientforsterkning (engelsk: gradient boosting) er en maskinlæringsteknikk basert på forsterkning i et funksjonelt rom, hvor målet er pseudo-residualene i stedet for de typiske residualene som brukes i tradisjonell forsterkning. Det gir en prediksjonsmodell i form av et ensemble av svake prediksjonsmodeller, altså modeller som gjør svært få antagelser om dataene, og som typisk er enkle beslutningstrær.[1][2] Når et beslutningstre er den svake lærende kalles den resulterende algoritmen gradientforsterkede trær, og utkonkurrerer vanligvis en tilfeldig skog.[1]

En gradient-forsterket tremodell er bygget på en trinnvis måte i likhet med andre forsterknings-metoder, men den generaliserer de andre metodene ved å tillate optimering av en vilkårlig deriverbar tapsfunksjon.

Regularisering

[rediger | rediger kilde]

Å tilpasse treningssettet for tett kan føre til forringelse av modellens generaliseringsevne. Flere såkalte regulariseringsteknikker reduserer denne overtilpasningseffekten ved å begrense tilpasningsprosedyren.

En naturlig regulariseringsparameter er antall gradientforsterkende iterasjoner M (altså antall trær i modellen når basislæreren er et beslutningstre). Å øke M reduserer feilen på treningssettet, men å sette det for høyt kan føre til overtilpasning. En optimal verdi av M velges ofte ved å se på prediksjonsfeilen til et separat valideringsdatasett. I tillegg til å kontrollere M brukes flere andre regulariseringsteknikker.

En annen regulariseringsparameter er trærnes dybde. Jo høyere denne verdien er, desto mer sannsynlig vil modellen overtilpasse treningsdataene.

Gradientforsterkning kan brukes i feltet for lære å rangere. Søkemotorene Yahoo[3] og Yandex[4] bruker varianter av gradientforsterkning i maskinlærte rangeringsmotorer. Gradientforsterkning brukes også til dataanalyse i høyenergifysikk. Ved Large Hadron Collider (LHC) har varianter av gradientforsterkende dype nevrale nett (DNN) lykkes med å reprodusere resultatene av ikke-maskinlæringsmetoder for analyser på datasettet som ble brukt til å oppdage higgs-bosonet.[5] Gradientforsterkede beslutningstre har også blitt brukt i geologiske studier, for eksempel for kvalitetsevaluering av sandsteinsreservoar.[6]

Selv om forsterkning kan øke nøyaktigheten til en basislærende, for eksempel et beslutningstre eller lineær regresjon, ofrer det forståelighet og tolkbarhet.[7][8] For eksempel er det trivielt og selvforklart å følge stien som et beslutningstre tar for sin beslutning, men det er mye vanskeligere å følge stiene til hundre eller tusenvis av trær. For å oppnå både ytelse og tolkbarhet fins det noen modellkomprimerings-teknikker som kan transformere en XGBoost til et enkelt "født-på-nytt"-beslutningstre som tilnærmer samme beslutningsfunksjon.[9] Videre kan implementeringen være vanskeligere på grunn av at det krever mer beregning.

Referanser

[rediger | rediger kilde]
  1. ^ a b Hastie, T.; Tibshirani, R.; Friedman, J. H. «10. Boosting and Additive Trees». The Elements of Statistical Learning (2nd utg.). New York: Springer. ISBN 978-0-387-84857-0. Arkivert fra originalen 10. november 2009. 
  2. ^ Friedman, J. H. «Stochastic Gradient Boosting» (PDF). Arkivert fra originalen (PDF) 1. august 2014. Besøkt 17. mai 2024. 
  3. ^ Cossock, David and Zhang, Tong (2008). Statistical Analysis of Bayes Optimal Subset Ranking Arkivert 2010-08-07 hos Wayback Machine, page 14.
  4. ^ Yandex corporate blog entry about new ranking model "Snezhinsk" Arkivert 1. mars 2012 hos Wayback Machine. Arkivert 2012-03-01 hos Wayback Machine (in Russian)
  5. ^ Lalchand, Vidhi (2020). «Extracting more from boosted decision trees: A high energy physics case study». arXiv:2001.06033 [stat.ML]. 
  6. ^ . 1. januar 2022. 
  7. ^ Piryonesi, S. Madeh (1. mars 2020). «Data Analytics in Asset Management: Cost-Effective Prediction of the Pavement Condition Index». 
  8. ^ Wu, Xindong (1. januar 2008). «Top 10 algorithms in data mining». 
  9. ^ Sagi, Omer (2021). «Approximating XGBoost with an interpretable decision tree.».