热门问题
时间线
聊天
视角

數據清洗

来自维基百科,自由的百科全书

Remove ads

數據清洗(data cleaning)是從記錄集、數據庫表數據庫中檢測和糾正(或刪除)損壞或不準確的記錄的過程,是指識別數據的不完整、不正確、不準確或不相關部分,然後替換、修改、或刪除髒數據或粗數據[1]。數據清洗可以與數據加工工具交互執行,也可以通過腳本進行批處理[2]

清洗後,一個數據集應該與系統中其他類似的數據集保持一致。 檢測到或刪除的不一致可能最初是由用戶輸入錯誤、傳輸或存儲中的損壞或不同存儲中類似實體的不同數據字典定義引起的。 數據清理與數據確認(data validation)的不同之處在於,數據確認幾乎總是意味着數據在輸入時被系統拒絕,並在輸入時執行,而不是執行於批量數據。

數據清洗不僅僅更正錯誤,同樣加強來自各個單獨信息系統不同數據間的一致性。專門的數據清洗軟件能夠自動檢測數據文件,更正錯誤數據,並用全企業一致的格式整合數據。[3]

參閱

參考資料

Loading content...
Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads