XGBoost

XGBoost (eXtreme Gradient Boosting) est une bibliothèque logicielle open source permettant de mettre en œuvre des méthodes d’amplification de gradient (Gradient boosting), de régularisation en C++, Java, R, Python et Julia^[2]. XGBoost fonctionne aussi bien sur Linux que sur Microsoft Windows ou MacOS^[3].

Cet article est une ébauche concernant l’informatique.

Faits en bref Dernière version, Dépôt ...

Informations
Dernière version	3.0.0 (15 mars 2025)^[1]
Dépôt	github.com/dmlc/xgboost
Assurance qualité	Intégration continue
Écrit en	R, Python, Julia, C++, Java, Ruby, C et Swift
Système d'exploitation	Linux
Type	Bibliothèque logicielle
Licence	Licence Apache 2.0
Site web	xgboost.ai

D'après sa description, le projet vise à offrir une bibliothèque de gradient boosting "conçue pour être évolutive, portable et distribuée. (GBM, GBRT, GBDT)"^[2].

Au milieu des années 2010, XGBoost s’est imposé comme l’algorithme privilégié par de nombreux lauréats de concours de machine learning^[4].

XGBoost applique la méthode de Newton-Raphson dans l’espace des fonctions, contrairement au gradient boosting classique qui utilise la descente de gradient dans ce même espace. Une approximation de Taylor d’ordre deux est intégrée à la fonction de coût pour établir le lien avec la méthode de Newton-Raphson^[5].

Entrée :

${(x_{i},y_{i})}_{i=1}^{N}$ avec une fonction de perte différentiable $L(y,F(x))$ , un nombre d’apprenants faibles (weak learners) $M$ et un taux d’apprentissage $\alpha$ ^[5].

Algorithme :

Initialisation du modèle avec une constante :

${\hat {f}}^{(0)}(x)={\underset {\theta }{\arg \min }}\sum _{i=1}^{N}L(y_{i},\theta )$

Cette étape consiste à choisir la valeur constante ( $\theta$ ) qui minimise la perte globale sur l’entrée. Par exemple, pour une perte quadratique $(L(y,\theta )=(y-\theta )^{2})$ , $\theta$ est la moyenne des $y_{i}$ ^[6].

Pour $m=1$ à $M$ :

a. Calcul des gradients et hessiens :

${\hat {g}}_{m}(x_{i})=\left.{\frac {\partial L(y_{i},f(x_{i}))}{\partial f(x_{i})}}\right|{f(x)={\hat {f}}^{(m-1)}(x)}$

${\hat {h}}_{m}(x_{i})=\left.{\frac {\partial ^{2}L(y_{i},f(x_{i}))}{\partial f(x_{i})^{2}}}\right|{f(x)={\hat {f}}^{(m-1)}(x)}$

Le gradient $({\hat {g}}_{m})$ indique la direction de correction. L'hessien $({\hat {h}}_{m})$ mesure la courbure de la perte, ce qui permet d’ajuster plus finement la mise à jour (méthode de Newton-Raphson)^[7].

b. Ajustement d’un apprenant faible : On ajuste un modèle de base (par exemple, un arbre) pour prédire la cible suivante pour chaque $x_{i}$ ^[6]:

${\tilde {y}}_{i}=-{\frac {{\hat {g}}_{m}(x_{i})}{{\hat {h}}_{m}(x_{i})}}$

On cherche la fonction $\phi _{m}$ qui minimise :

${\hat {\phi }}_{m}={\underset {\phi \in \Phi }{\arg \min }}\sum _{i=1}^{N}{\frac {1}{2}}{\hat {h}}_{m}(x_{i})\left[\phi (x_{i})+{\frac {{\hat {g}}_{m}(x_{i})}{{\hat {h}}_{m}(x_{i})}}\right]^{2}$

où $\Phi$ est l’ensemble des fonctions possibles (par exemple, tous les arbres de décision d’une certaine profondeur)^[5].

c. Mise à jour du modèle :

${\hat {f}}^{(m)}(x)={\hat {f}}^{(m-1)}(x)+\alpha {\hat {\phi }}_{m}(x)$

où $\alpha$ est le taux d’apprentissage^[5].

Sortie finale :

${\hat {f}}(x)={\hat {f}}^{(M)}(x)={\hat {f}}^{(0)}(x)+\sum _{m=1}^{M}\alpha {\hat {\phi }}_{m}(x)$

La prédiction finale est la somme de la constante initiale et des corrections successives apportées par chaque apprenant faibles^[6].

Fonctionnement de l'algorithme

Notes et références

Wikiwand - on