Conxunto de datos das flores Iris

From Wikipedia, the free encyclopedia

Conxunto de datos das flores Iris
Remove ads

O conxunto de datos das flores Iris, ou conxunto de datos Iris de Fisher (en inglés: Iris flower data set), é un conxunto de datos multivariante utilizado e popularizado polo estatístico e biólogo británico Ronald Fisher no seu artigo de 1936 The use of multiple measurements in taxonomic problems, como exemplo de análise discriminante lineal.[1] Ás veces tamén se lle chama conxunto de datos Iris de Anderson, porque o botánico Edgar Anderson recolleu os datos para cuantificar a variación morfolóxica das flores de Iris de tres especies relacionadas.[2] Dúas das tres especies foron recollidas na Península de Gaspé “todas do mesmo pasto, recollidas o mesmo día e medidas ao mesmo tempo pola mesma persoa co mesmo aparello”.[3]

Thumb
Diagrama de dispersión do conxunto de datos

O conxunto de datos consta de 50 mostras de cada unha das tres especies de Iris (Iris setosa, Iris virginica e Iris versicolor). Para cada mostra medíronse catro características: o longo e o ancho dos sépalos e pétalos, en centímetros. Baseándose na combinación destas catro características, Fisher desenvolveu un modelo discriminante lineal para distinguir cada especie. O artigo de Fisher foi publicado en Annals of Eugenics (hoxe coñecido como Annals of Human Genetics).[1]

Remove ads

Uso do conxunto de datos

Thumb
Clustering k-means insatisfactorio (os datos non se poden agrupar nas clases coñecidas) e as especies reais visualizadas usando ELKI
Thumb
Exemplo do chamado “mapa de metro” para o conxunto de datos Iris.[4] Só unha pequena fracción de Iris-virginica mestúrase con Iris-versicolor. Todas as demais mostras das diferentes especies de Iris pertencen a nodos distintos.

Originalmente utilizado como conxunto de datos de exemplo no que se aplicou a análise discriminante lineal de Fisher, converteuse nun caso típico de proba para moitas técnicas estatísticas de clasificación en aprendizaxe automática, como as máquinas de vector soporte.[5]

O uso deste conxunto de datos en análise de agrupamentos non é habitual, xa que o conxunto só contén dous conglomerados con separación bastante evidente. Un dos conglomerados contén Iris setosa, mentres que o outro contén tanto Iris virginica como Iris versicolor e non é separable sen a información sobre a especie que utilizou Fisher. Isto fai que o conxunto de datos sexa un bo exemplo para explicar a diferenza entre técnicas supervisadas e non supervisadas na minaría de datos: o modelo discriminante lineal de Fisher só pode obterse cando se coñecen as especies dos obxectos; as etiquetas de clase e os conglomerados non son necesariamente iguais.[6]

Non obstante, as tres especies de Iris son separables na proxección sobre a compoñente principal non lineal e ramificada.[7] O conxunto de datos apróximase pola árbore máis próxima cunha certa penalización polo número excesivo de nós, as curvaturas e os estiramentos. A continuación constrúese o denominado «mapa do metro».[4] Os puntos de datos proxéctanse no nó máis próximo. Para cada nó prepárase un diagrama de sectores cos puntos proxectados. A área de cada sector é proporcional ao número de puntos proxectados. Obsérvase claramente no diagrama (á esquerda) que a gran maioría das mostras das distintas especies de Iris pertencen a nós diferentes. Só unha pequena fracción de Iris virginica aparece mesturada con Iris versicolor (os nós azul-verdes mesturados no diagrama). Polo tanto, as tres especies de Iris (Iris setosa, Iris virginica e Iris versicolor) son separables mediante procedementos non supervisados de análise de compoñentes principais non lineais. Para discriminalas, é suficiente con seleccionar os nós correspondentes na árbore principal.

Remove ads

Conxunto de datos

Thumb
Iris setosa

O conxunto de datos contén 150 rexistros con cinco atributos: lonxitude do sépalo, largura do sépalo, lonxitude da pétala, largura da pétala e especie.

Thumb
Iris versicolor
Thumb
Iris virginica
Thumb
Biplot SpectraMap do conxunto de datos Iris de Fisher
Máis información Orde do conxunto de datos, Lonxitude do sépalo ...

O conxunto de datos Iris úsase amplamente como un conxunto de datos introdutorio para a aprendizaxe automática. O conxunto de datos está incluído na versión base de R e tamén en Python na biblioteca de machine learning scikit-learn, de maneira que os usuarios poden acceder a el sen ter que buscar unha fonte externa.

Publicáronse varias versións do conxunto de datos.[8]

Código en R que ilustra o seu uso

O código de exemplo en R que se mostra a continuación reproduce o diagrama de dispersión que aparece na parte superior deste artigo:

# Amosar o conxunto de datos
iris
# Amosar a páxina de axuda, con información sobre o conxunto de datos
?iris

# Crear diagramas de dispersión de todas as combinacións pareadas das 4 variables do conxunto de datos
pairs(iris[1:4], main="Iris Data (red=setosa,green=versicolor,blue=virginica)",
      pch=21, bg=c("red","green3","blue")[unclass(iris$Species)])
 

# Alternativamente usando ggplot e ggally.
install.packages(c("ggplot2","GGally")) # instalar paquetes se non os tes.

# Cargar as librarías.
library(ggplot2)
library(GGally)

# Debuxar a matriz de diagramas de dispersión para o conxunto de datos iris
ggpairs(data = iris, # os teus datos iris
        columns = 1:4, # columnas para o diagrama de dispersión
        mapping = aes(colour = Species,fill = Species),
        title = 'Matriz de Diagramas de Dispersión do Conxunto de Datos Iris',
        ) +
  theme(plot.title = element_text(hjust = 0.5,face = 'bold')) +
  scale_color_brewer(palette = 'Set1')

Código en Python que ilustra o seu uso

from sklearn.datasets import load_iris

iris = load_iris()
print(iris)

Este código dá como resultado:

{'data': array([[5.1, 3.5, 1.4, 0.2],
                [4.9, 3., 1.4, 0.2],
                [4.7, 3.2, 1.3, 0.2],
                [4.6, 3.1, 1.5, 0.2],...
'target': array([0, 0, 0, ... 1, 1, 1, ... 2, 2, 2, ...
'target_names': array(['setosa', 'versicolor', 'virginica'], dtype='<U10'),
...}
Remove ads

Notas

Véxase tamén

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads