Conxunto de datos

Propiedades

Varias características definen a estrutura e as propiedades dun conxunto de datos. Entre elas están o número e os tipos dos atributos ou variábeis, así como diversas medidas estatísticas aplicables a estas, como a desviación típica ou a curtose.^[5]

Os valores poden ser números, como números reais ou enteiros —por exemplo, a altura dunha persoa en centímetros—, pero tamén poden ser datos nominais (é dicir, que non consisten en valores numéricos), como por exemplo a etnia dunha persoa. En termos máis xerais, os valores poden ser de calquera dos tipos descritos nun nivel de medición. Para cada variábel, os valores adoitan ser todos do mesmo tipo. Poden existir valores ausentes, que deben indicarse dalgunha maneira.

Na estatística, os conxuntos de datos adoitan proceder de observacións reais obtidas mediante a mostraxe dunha poboación estatística, e cada fila corresponde ás observacións realizadas sobre un elemento desa poboación. Os conxuntos de datos tamén poden ser xerados por algoritmos co fin de probar certos tipos de software. Algúns programas modernos de análise estatística, como SPSS, aínda presentan os seus datos no formato clásico de conxunto de datos. Se existen datos faltantes ou sospeitosos, pódese empregar un método de imputación para completar o conxunto de datos.^[6]

Remove ads

Aplicacións e casos de uso

Os conxuntos de datos úsanse amplamente en numerosos ámbitos para apoiar a análise de datos, a investigación e a toma de decisións. Nas ciencias, os conxuntos de datos proporcionan a base empírica para estudos en disciplinas como a bioloxía, a física e as ciencias sociais, posibilitando descubrimentos en medicina, ciencia ambiental e investigación social. No machine learning e na intelixencia artificial, os conxuntos de datos son esenciais para adestrar, validar e probar algoritmos en tarefas como o recoñecemento de imaxes, o procesamento da linguaxe natural e a modelización predictiva.

Os gobernos e organizacións publican conxuntos de datos abertos para promover a transparencia, informar a elaboración de políticas e facilitar a planificación urbana e social. O sector empresarial emprega conxuntos de datos para análise de mercados, segmentación de clientes e melloras operativas. Ademais, o sistema sanitario depende deles para a investigación clínica e para mellorar os resultados das persoas pacientes.

Estas aplicacións diversas amosan o papel fundamental que desempeñan os conxuntos de datos á hora de posibilitar coñecementos baseados en evidencias e de impulsar o progreso tecnolóxico.

Remove ads

Clásicos

Varios conxuntos de datos clásicos foron utilizados amplamente na literatura estatística:

Conxunto de datos das flores Iris – Conxunto de datos multivariado introducido por Ronald Fisher (1936). Dispoñible en liña no University of California–Irvine Machine Learning Repository.^[7]
Base de datos MNIST – Imaxes de díxitos escritos a man, empregadas habitualmente para probar algoritmos de clasificación, agrupamento e procesamento de imaxe.
Análise de datos categóricos – Conxuntos de datos utilizados no libro An Introduction to Categorical Data Analysis, dispoñibles en liña^[8] grazas ao UCLA Advanced Research Computing.^[9]
Estatística robusta – Conxuntos de datos empregados en Robust Regression and Outlier Detection (Rousseeuw e Leroy, 1968). Dispoñibles en liña na Universidade de Colonia.^[10]
Series temporais – Os datos empregados no libro de Chatfield, The Analysis of Time Series, están dispoñibles en liña a través de StatLib.^[11]
Valores extremos – Os datos utilizados no libro An Introduction to the Statistical Modeling of Extreme Values son unha captura dos datos tal e como estaban dispoñibles en liña por Stuart Coles, o autor do libro.
Bayesian Data Analysis – Os datos utilizados no libro están dispoñibles en liña (ligazón arquivada) por Andrew Gelman, un dos autores.
Datos hepáticos de Bupa – Empregados en varios artigos da literatura de aprendizaxe automática (minaría de datos).
Cuarteto de Anscombe – Pequeno conxunto de datos que ilustra a importancia de representar graficamente os datos para evitar falacias estatísticas.

Conxunto de datos

Propiedades

Aplicacións e casos de uso

Clásicos

Exemplo

Notas

Véxase tamén

Wikiwand - on