Top-Fragen
Zeitleiste
Chat
Kontext
XGBoost
Open-Source-Softwarebibliothek Aus Wikipedia, der freien Enzyklopädie
Remove ads
XGBoost[2] (eXtreme Gradient Boosting) ist eine Open-Source-Softwarebibliothek, die ein Gradient-Boosting-Verfahren für die Programmiersprachen C++, Java, Python,[3] R,[4] Julia,[5] Perl[6] und Scala zur Verfügung stellt. Es funktioniert mit den Betriebssystemen Linux, Windows[7] und macOS[8] sowohl auf einer einzelnen Maschine als auch auf verteilten Verarbeitungsframeworks wie Apache Hadoop, Apache Spark, Apache Flink und Dask.[9][10] Das Framework stellt eine „skalierbare, portierbare und verteilte Gradient Boosting (GBM, GBRT oder GBDT) Bibliothek“ bereit.
XGBoost hat im Jahr 2016 viel Popularität und Aufmerksamkeit erlangt, da es der Algorithmus der Wahl für viele Siegerteams von Wettbewerben für maschinelles Lernen ist.[11]
Remove ads
Geschichte
Zusammenfassung
Kontext
XGBoost wurde ursprünglich als Forschungsprojekt von Tianqi Chen im Rahmen der Distributed-(Deep) Machine-Learning-Common (DMLC)-Gruppe gestartet. Anfänglich war es eine Terminalanwendung, die mithilfe einer libsvm-Konfigurationsdatei konfiguriert werden konnte.[12] Es wurde in den Kreisen der ML-Wettbewerbe bekannt, nachdem es in der Siegerlösung der Higgs Machine Learning Challenge verwendet worden war.[13] Bald darauf wurden die Python- und R-Pakete erstellt, und XGBoost hat nun Paketimplementierungen für Java, Scala, Julia, Perl und andere Sprachen. Dies machte die Bibliothek für mehr Entwickler zugänglich und trug zu ihrer Popularität in der Kaggle-Gemeinschaft bei, wo sie bisher für eine große Anzahl von Wettbewerben verwendet wurde.[11]
Es wurde bald in eine Reihe anderer Pakete integriert, um die Nutzung in den jeweiligen Communities zu erleichtern. Für Python-Nutzer wurde es nun in scikit-learn und für R-Nutzer in das caret-Paket integriert.[14] Es kann auch in Datenfluss-Frameworks wie Apache Spark, Apache Hadoop und Apache Flink unter Verwendung der abstrahierten Rabit[15] und XGBoost4J integriert werden.[16] XGBoost ist auch auf OpenCL für FPGAs verfügbar.[17] Eine effiziente, skalierbare Implementierung von XGBoost wurde von Tianqi Chen und Carlos Guestrin veröffentlicht.[18]
Mit dem XGBoost-Modell wird zwar oft eine höhere Genauigkeit als mit einem einzelnen Entscheidungsbaum erreicht, aber die eigentliche Interpretierbarkeit von Entscheidungsbäumen geht dabei verloren. So ist es beispielsweise trivial, den Weg eines Entscheidungsbaums zu verfolgen, aber es ist viel schwieriger, die Wege von Hunderten oder Tausenden von Bäumen zu verfolgen. Um sowohl Leistung als auch Interpretierbarkeit zu erreichen, ermöglichen einige Modellkomprimierungstechniken die Umwandlung eines XGBoost in einen einzigen „wiedergeborenen“ Entscheidungsbaum, der dieselbe Entscheidungsfunktion approximiert.[19]
Remove ads
Merkmale
Zu den wichtigsten Merkmalen von XGBoost, die es von anderen Gradient-Boosting-Algorithmen unterscheiden, gehören:[20][21][22]
- clevere „Bestrafung“ von Bäumen
- proportionale Schrumpfung der Blattknoten
- Newton-Boosting
- zusätzlicher Randomisierungsparameter
- Implementierung auf einzelnen, verteilten Systemen und Out-of-Core-Berechnungen
- automatische Auswahl von Merkmalen
Algorithmus
Zusammenfassung
Kontext
XGBoost arbeitet als Newton-Raphson-Verfahren im Funktionsraum, im Gegensatz zum Gradient Boosting, das als Gradientenabstieg im Funktionsraum arbeitet. In der Verlustfunktion wird eine Taylor-Approximation zweiter Ordnung verwendet, um die Verbindung zum Newton-Raphson-Verfahren herzustellen.
Ein allgemeiner unregulierter XGBoost-Algorithmus ist:
Eingabe: Trainingsmenge , eine differenzierbare Verlustfunktion , eine Anzahl von schwachen Lernern und eine Lernrate .
Algorithmus:
- Modell mit einem konstanten Wert initialisieren:
- Für m = 1 zu M:
- Berechnung des Gradienten (1. Ableitung) und der Hesse-Matrix (2. Ableitung):
- Anpassen eines Basis-Learners (oder schwachen Lerners, z. B. Baum) unter Verwendung der Trainingsmenge durch Lösen des nachstehenden Optimierungsproblems:
- Modell updaten:
- Berechnung des Gradienten (1. Ableitung) und der Hesse-Matrix (2. Ableitung):
- Ergebnis
Remove ads
Auszeichnungen
Einzelnachweise
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads