Качество на данните
From Wikipedia, the free encyclopedia
Качество на данните (на английски: data quality) е термин, с който се описва състоянието на даден набор от стойностите на качествени и количествени променливи величини. Съществуват много дефиниции на понятието „качество на данните“, но като цяло данните се смятат за качествени, ако „отговарят на целта, за която са предназначени за опериране, вземане на решения и планиране“.[1] Алтернативно, данните се смятат за качествени, ако коректно представят конструктите от реалния свят, за които се отнасят.
Наред с тенденцията обемите от данни да стават все по-големи, на преден план излиза и въпросът за вътрешната съгласуваност на данните (data consistency), без значение дали тези данни отговарят на нуждите на каквато и да е конкретна външна цел. Различните потребители могат да имат различни виждания за качеството на данните, дори когато става въпрос за един и същ набор от данни, използвани за една и съща цел. За осигуряване на качество на данните може да е необходима допълнителна процедура по пречистване на данните (data cleansing).[2]