Top Qs
Chronologie
Chat
Contexte
Classification double
De Wikipédia, l'encyclopédie libre
Remove ads
La Classification double ou « Biclustering » est une technique d'exploration de données non-supervisée permettant de segmenter simultanément les lignes et les colonnes d'une matrice. Plus formellement[1], la définition de la classification double peut s'exprimer de la manière suivante (pour le type de classification par colonne) :
soit une matrice , soient , alors est appelé « bicluster » de lorsque pour tout
Remove ads
Application
Le « biclustering » a été utilisé massivement en biologie[2] - par exemple dans l'analyse de l'expression génétique par Yizong Cheng et George M. Church[3] , [4] -, mais aussi dans d'autres domaines tels que la compression d'image de synthèse[5], l'analyse médicale - par exemple pour l'étude des traitements de l'épilepsie[6] par stimulation vagale, la caractérisation d'émetteurs de pourriels (« spam »)[7], l'analyse du mouvement[8], l'analyse des termes publicitaires sur internet[9], ...
Types
Résumé
Contexte
Dans les différents algorithmes qui utilisent la classification double, on trouve différents types de bicluster :
- « Bi-cluster » à valeurs constantes (a),
- « Bi-cluster » à valeurs constantes en lignes (b) ou en colonnes (c),
- « Bi-cluster » à valeurs cohérentes (d, e).
|
|
|
|
|
En d) la notion d'additivité se comprend comme ceci : en colonnes, en lignes; en e) le motif est en colonnes et .
Algorithmes
Le but des algorithmes de classification double est de trouver, s'il existe, le plus grand « bi-cluster » contenu dans une matrice, en maximisant une fonction objectif. On peut prendre comme fonction, avec les notations adoptées ci-dessus :
De nombreux algorithmes ont été développés notamment par la bio-informatique, dont :
« Block clustering », CTWC (« Coupled Two-Way Clustering ») , ITWC (« Interrelated Two-Way Clustering »), δ-bicluster, δ-pCluster, δ-pattern, FLOC, OPC, « Plaid Model », OPSMs (« Order-preserving submatrixes »), Gibbs, SAMBA (« Statistical-Algorithmic Method for Bicluster Analysis »)[11], RoBA (« Robust Biclustering Algorithm »), « Crossing Minimization »[12]
, cMonkey[13], PRMs, DCC, LEB (« Localize and Extract Biclusters »), QUBIC (« QUalitative BIClustering »), BCCA (« Bi-Correlation Clustering Algorithm »), FABIA (« Factor Analysis for Bicluster Acquisition »)[14]. Certains de ces algorithmes ont été comparés par Doruk Bozda, Ashwin S. Kumar et Umit V. Catalyurek[15] en termes de type de motifs recherchés.
Le package « biclust »[16] propose un ensemble d'outils pour la classification double dans le logiciel R.
Articles connexes
Notes et références
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads