Conxunto de datos
From Wikipedia, the free encyclopedia
Remove ads
Un conxunto de datos (en inglés: data set ou dataset) é unha colección de datos. No caso dos datos tabulares, un conxunto de datos correspóndese cunha ou varias táboas dunha base de datos, onde cada columna dunha táboa representa unha determinada variábel, e cada fila corresponde a un rexistro concreto do conxunto de datos en cuestión. O conxunto de datos lista os valores de cada unha das variábeis —por exemplo, altura e peso dun obxecto— para cada membro do conxunto.

Os conxuntos de datos tamén poden consistir nunha colección de documentos ou ficheiros.[2]
Na disciplina de datos abertos, un conxunto de datos é unha unidade utilizada para medir a cantidade de información liberada nun repositorio público de datos abertos. O portal europeo data.europa.eu[3] agrega máis dun millón de conxuntos de datos.[4]
Remove ads
Propiedades
Varias características definen a estrutura e as propiedades dun conxunto de datos. Entre elas están o número e os tipos dos atributos ou variábeis, así como diversas medidas estatísticas aplicables a estas, como a desviación típica ou a curtose.[5]
Os valores poden ser números, como números reais ou enteiros —por exemplo, a altura dunha persoa en centímetros—, pero tamén poden ser datos nominais (é dicir, que non consisten en valores numéricos), como por exemplo a etnia dunha persoa. En termos máis xerais, os valores poden ser de calquera dos tipos descritos nun nivel de medición. Para cada variábel, os valores adoitan ser todos do mesmo tipo. Poden existir valores ausentes, que deben indicarse dalgunha maneira.
Na estatística, os conxuntos de datos adoitan proceder de observacións reais obtidas mediante a mostraxe dunha poboación estatística, e cada fila corresponde ás observacións realizadas sobre un elemento desa poboación. Os conxuntos de datos tamén poden ser xerados por algoritmos co fin de probar certos tipos de software. Algúns programas modernos de análise estatística, como SPSS, aínda presentan os seus datos no formato clásico de conxunto de datos. Se existen datos faltantes ou sospeitosos, pódese empregar un método de imputación para completar o conxunto de datos.[6]
Remove ads
Aplicacións e casos de uso
Os conxuntos de datos úsanse amplamente en numerosos ámbitos para apoiar a análise de datos, a investigación e a toma de decisións. Nas ciencias, os conxuntos de datos proporcionan a base empírica para estudos en disciplinas como a bioloxía, a física e as ciencias sociais, posibilitando descubrimentos en medicina, ciencia ambiental e investigación social. No machine learning e na intelixencia artificial, os conxuntos de datos son esenciais para adestrar, validar e probar algoritmos en tarefas como o recoñecemento de imaxes, o procesamento da linguaxe natural e a modelización predictiva.
Os gobernos e organizacións publican conxuntos de datos abertos para promover a transparencia, informar a elaboración de políticas e facilitar a planificación urbana e social. O sector empresarial emprega conxuntos de datos para análise de mercados, segmentación de clientes e melloras operativas. Ademais, o sistema sanitario depende deles para a investigación clínica e para mellorar os resultados das persoas pacientes.
Estas aplicacións diversas amosan o papel fundamental que desempeñan os conxuntos de datos á hora de posibilitar coñecementos baseados en evidencias e de impulsar o progreso tecnolóxico.
Remove ads
Clásicos
Varios conxuntos de datos clásicos foron utilizados amplamente na literatura estatística:
- Conxunto de datos das flores Iris – Conxunto de datos multivariado introducido por Ronald Fisher (1936). Dispoñible en liña no University of California–Irvine Machine Learning Repository.[7]
- Base de datos MNIST – Imaxes de díxitos escritos a man, empregadas habitualmente para probar algoritmos de clasificación, agrupamento e procesamento de imaxe.
- Análise de datos categóricos – Conxuntos de datos utilizados no libro An Introduction to Categorical Data Analysis, dispoñibles en liña[8] grazas ao UCLA Advanced Research Computing.[9]
- Estatística robusta – Conxuntos de datos empregados en Robust Regression and Outlier Detection (Rousseeuw e Leroy, 1968). Dispoñibles en liña na Universidade de Colonia.[10]
- Series temporais – Os datos empregados no libro de Chatfield, The Analysis of Time Series, están dispoñibles en liña a través de StatLib.[11]
- Valores extremos – Os datos utilizados no libro An Introduction to the Statistical Modeling of Extreme Values son unha captura dos datos tal e como estaban dispoñibles en liña por Stuart Coles, o autor do libro.
- Bayesian Data Analysis – Os datos utilizados no libro están dispoñibles en liña (ligazón arquivada) por Andrew Gelman, un dos autores.
- Datos hepáticos de Bupa – Empregados en varios artigos da literatura de aprendizaxe automática (minaría de datos).
- Cuarteto de Anscombe – Pequeno conxunto de datos que ilustra a importancia de representar graficamente os datos para evitar falacias estatísticas.
Exemplo
Cargando conxuntos de datos usando Python:
$ pip install datasets
from datasets import load_dataset
# Cargar o conxunto de datos
dataset = load_dataset(NOME_DO_DATASET)
Notas
Véxase tamén
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads
