Dataset

Uit Wikipedia, de vrije encyclopedie

Een gegevensverzameling of dataset is een verzameling van gegevens (data), meestal gepresenteerd in tabelvorm. Elke kolom vertegenwoordigt een bepaalde variabele. De dataset representeert dan een verzameling rijen (ook records genoemd), elk voor één object (in de ruime zin van het woord, het kunnen bijvoorbeeld ook personen zijn). Een rij bevat de waarden voor elk van de variabelen, of attributen, voor het betreffende object, bijvoorbeeld lengte en gewicht.

Een verzameling rijen is op zichzelf niet geordend. Een weergave met de rijen in een andere volgorde is dan niet de weergave van een andere dataset. Ordening kan op basis van de waarde van een variabele. De rijen kunnen ook geordend zijn, los van de waarden van de variabelen.

Als de datatabel van de al of niet geordende dataset maar één kolom heeft wordt deze wel vereenzelvigd met de betreffende (respectievelijk niet of wel) geordende multiset (die eventueel een verzameling is).

Een gegevensverzameling niet in tabelvorm kan de vorm hebben van een karakterstring, zoals een XML-bestand.