Conxunto de datos das flores Iris
From Wikipedia, the free encyclopedia
Remove ads
O conxunto de datos das flores Iris, ou conxunto de datos Iris de Fisher (en inglés: Iris flower data set), é un conxunto de datos multivariante utilizado e popularizado polo estatístico e biólogo británico Ronald Fisher no seu artigo de 1936 The use of multiple measurements in taxonomic problems, como exemplo de análise discriminante lineal.[1] Ás veces tamén se lle chama conxunto de datos Iris de Anderson, porque o botánico Edgar Anderson recolleu os datos para cuantificar a variación morfolóxica das flores de Iris de tres especies relacionadas.[2] Dúas das tres especies foron recollidas na Península de Gaspé “todas do mesmo pasto, recollidas o mesmo día e medidas ao mesmo tempo pola mesma persoa co mesmo aparello”.[3]

O conxunto de datos consta de 50 mostras de cada unha das tres especies de Iris (Iris setosa, Iris virginica e Iris versicolor). Para cada mostra medíronse catro características: o longo e o ancho dos sépalos e pétalos, en centímetros. Baseándose na combinación destas catro características, Fisher desenvolveu un modelo discriminante lineal para distinguir cada especie. O artigo de Fisher foi publicado en Annals of Eugenics (hoxe coñecido como Annals of Human Genetics).[1]
Remove ads
Uso do conxunto de datos


Originalmente utilizado como conxunto de datos de exemplo no que se aplicou a análise discriminante lineal de Fisher, converteuse nun caso típico de proba para moitas técnicas estatísticas de clasificación en aprendizaxe automática, como as máquinas de vector soporte.[5]
O uso deste conxunto de datos en análise de agrupamentos non é habitual, xa que o conxunto só contén dous conglomerados con separación bastante evidente. Un dos conglomerados contén Iris setosa, mentres que o outro contén tanto Iris virginica como Iris versicolor e non é separable sen a información sobre a especie que utilizou Fisher. Isto fai que o conxunto de datos sexa un bo exemplo para explicar a diferenza entre técnicas supervisadas e non supervisadas na minaría de datos: o modelo discriminante lineal de Fisher só pode obterse cando se coñecen as especies dos obxectos; as etiquetas de clase e os conglomerados non son necesariamente iguais.[6]
Non obstante, as tres especies de Iris son separables na proxección sobre a compoñente principal non lineal e ramificada.[7] O conxunto de datos apróximase pola árbore máis próxima cunha certa penalización polo número excesivo de nós, as curvaturas e os estiramentos. A continuación constrúese o denominado «mapa do metro».[4] Os puntos de datos proxéctanse no nó máis próximo. Para cada nó prepárase un diagrama de sectores cos puntos proxectados. A área de cada sector é proporcional ao número de puntos proxectados. Obsérvase claramente no diagrama (á esquerda) que a gran maioría das mostras das distintas especies de Iris pertencen a nós diferentes. Só unha pequena fracción de Iris virginica aparece mesturada con Iris versicolor (os nós azul-verdes mesturados no diagrama). Polo tanto, as tres especies de Iris (Iris setosa, Iris virginica e Iris versicolor) son separables mediante procedementos non supervisados de análise de compoñentes principais non lineais. Para discriminalas, é suficiente con seleccionar os nós correspondentes na árbore principal.
Remove ads
Conxunto de datos

O conxunto de datos contén 150 rexistros con cinco atributos: lonxitude do sépalo, largura do sépalo, lonxitude da pétala, largura da pétala e especie.



O conxunto de datos Iris úsase amplamente como un conxunto de datos introdutorio para a aprendizaxe automática. O conxunto de datos está incluído na versión base de R e tamén en Python na biblioteca de machine learning scikit-learn, de maneira que os usuarios poden acceder a el sen ter que buscar unha fonte externa.
Publicáronse varias versións do conxunto de datos.[8]
Código en R que ilustra o seu uso
O código de exemplo en R que se mostra a continuación reproduce o diagrama de dispersión que aparece na parte superior deste artigo:
# Amosar o conxunto de datos
iris
# Amosar a páxina de axuda, con información sobre o conxunto de datos
?iris
# Crear diagramas de dispersión de todas as combinacións pareadas das 4 variables do conxunto de datos
pairs(iris[1:4], main="Iris Data (red=setosa,green=versicolor,blue=virginica)",
pch=21, bg=c("red","green3","blue")[unclass(iris$Species)])
# Alternativamente usando ggplot e ggally.
install.packages(c("ggplot2","GGally")) # instalar paquetes se non os tes.
# Cargar as librarías.
library(ggplot2)
library(GGally)
# Debuxar a matriz de diagramas de dispersión para o conxunto de datos iris
ggpairs(data = iris, # os teus datos iris
columns = 1:4, # columnas para o diagrama de dispersión
mapping = aes(colour = Species,fill = Species),
title = 'Matriz de Diagramas de Dispersión do Conxunto de Datos Iris',
) +
theme(plot.title = element_text(hjust = 0.5,face = 'bold')) +
scale_color_brewer(palette = 'Set1')
Código en Python que ilustra o seu uso
from sklearn.datasets import load_iris
iris = load_iris()
print(iris)
Este código dá como resultado:
{'data': array([[5.1, 3.5, 1.4, 0.2],
[4.9, 3., 1.4, 0.2],
[4.7, 3.2, 1.3, 0.2],
[4.6, 3.1, 1.5, 0.2],...
'target': array([0, 0, 0, ... 1, 1, 1, ... 2, 2, 2, ...
'target_names': array(['setosa', 'versicolor', 'virginica'], dtype='<U10'),
...}
Remove ads
Notas
Véxase tamén
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads
