Conxunto de datos

From Wikipedia, the free encyclopedia

Conxunto de datos
Remove ads

Un conxunto de datos (en inglés: data set ou dataset) é unha colección de datos. No caso dos datos tabulares, un conxunto de datos correspóndese cunha ou varias táboas dunha base de datos, onde cada columna dunha táboa representa unha determinada variábel, e cada fila corresponde a un rexistro concreto do conxunto de datos en cuestión. O conxunto de datos lista os valores de cada unha das variábeis —por exemplo, altura e peso dun obxecto— para cada membro do conxunto.

Thumb
Varias gráficas do conxunto de datos multivariante das flores de iris, introducido por Ronald Fisher (1936).[1]

Os conxuntos de datos tamén poden consistir nunha colección de documentos ou ficheiros.[2]

Na disciplina de datos abertos, un conxunto de datos é unha unidade utilizada para medir a cantidade de información liberada nun repositorio público de datos abertos. O portal europeo data.europa.eu[3] agrega máis dun millón de conxuntos de datos.[4]

Remove ads

Propiedades

Varias características definen a estrutura e as propiedades dun conxunto de datos. Entre elas están o número e os tipos dos atributos ou variábeis, así como diversas medidas estatísticas aplicables a estas, como a desviación típica ou a curtose.[5]

Os valores poden ser números, como números reais ou enteiros —por exemplo, a altura dunha persoa en centímetros—, pero tamén poden ser datos nominais (é dicir, que non consisten en valores numéricos), como por exemplo a etnia dunha persoa. En termos máis xerais, os valores poden ser de calquera dos tipos descritos nun nivel de medición. Para cada variábel, os valores adoitan ser todos do mesmo tipo. Poden existir valores ausentes, que deben indicarse dalgunha maneira.

Na estatística, os conxuntos de datos adoitan proceder de observacións reais obtidas mediante a mostraxe dunha poboación estatística, e cada fila corresponde ás observacións realizadas sobre un elemento desa poboación. Os conxuntos de datos tamén poden ser xerados por algoritmos co fin de probar certos tipos de software. Algúns programas modernos de análise estatística, como SPSS, aínda presentan os seus datos no formato clásico de conxunto de datos. Se existen datos faltantes ou sospeitosos, pódese empregar un método de imputación para completar o conxunto de datos.[6]

Remove ads

Aplicacións e casos de uso

Os conxuntos de datos úsanse amplamente en numerosos ámbitos para apoiar a análise de datos, a investigación e a toma de decisións. Nas ciencias, os conxuntos de datos proporcionan a base empírica para estudos en disciplinas como a bioloxía, a física e as ciencias sociais, posibilitando descubrimentos en medicina, ciencia ambiental e investigación social. No machine learning e na intelixencia artificial, os conxuntos de datos son esenciais para adestrar, validar e probar algoritmos en tarefas como o recoñecemento de imaxes, o procesamento da linguaxe natural e a modelización predictiva.

Os gobernos e organizacións publican conxuntos de datos abertos para promover a transparencia, informar a elaboración de políticas e facilitar a planificación urbana e social. O sector empresarial emprega conxuntos de datos para análise de mercados, segmentación de clientes e melloras operativas. Ademais, o sistema sanitario depende deles para a investigación clínica e para mellorar os resultados das persoas pacientes.

Estas aplicacións diversas amosan o papel fundamental que desempeñan os conxuntos de datos á hora de posibilitar coñecementos baseados en evidencias e de impulsar o progreso tecnolóxico.

Remove ads

Clásicos

Varios conxuntos de datos clásicos foron utilizados amplamente na literatura estatística:

Exemplo

Cargando conxuntos de datos usando Python:

$ pip install datasets
from datasets import load_dataset

# Cargar o conxunto de datos
dataset = load_dataset(NOME_DO_DATASET)

Notas

Véxase tamén

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads