新聞資訊
海量資訊實(shí)時(shí)呈現(xiàn)
有了Ta,數(shù)據(jù)清洗 so easy!
2020-01-08
主數(shù)據(jù)來源于多個(gè)業(yè)務(wù)系統(tǒng)且包含大量歷史數(shù)據(jù),不可避免地存在錯(cuò)誤、沖突的數(shù)據(jù),這些錯(cuò)誤的或有沖突的數(shù)據(jù)就是 "臟數(shù)據(jù)"。 數(shù)據(jù)清洗顧名思義就是對“臟數(shù)據(jù)”進(jìn)行清洗,是對主數(shù)據(jù)進(jìn)行重新審查和校驗(yàn)的過程,包括檢查主數(shù)據(jù)一致性、處理無效值和缺失值等,是發(fā)現(xiàn)并糾正主數(shù)據(jù)文件中可識別錯(cuò)誤的最后一道程序。 數(shù)據(jù)清洗按照一定的規(guī)則把零散、重復(fù)、不完整的主數(shù)據(jù)清洗干凈,得到精確、完整、一致、有效、唯一的主數(shù)據(jù),從而提高主數(shù)據(jù)質(zhì)量。 數(shù)據(jù)清洗是一個(gè)費(fèi)時(shí)費(fèi)力但又必不可少的工作。在數(shù)據(jù)清洗過程中,三維天地將根據(jù)客戶的需求制定清洗方案。 主數(shù)據(jù)清洗方案一般有兩種: 線下清洗 先對主數(shù)據(jù)進(jìn)行清洗,導(dǎo)入系統(tǒng)后,系統(tǒng)再上線使用。在數(shù)據(jù)量不多的情況下,可以直接對數(shù)據(jù)進(jìn)行清洗,對常見的幾種數(shù)據(jù)問題進(jìn)行逐一排查清洗,具體步驟如下: 第一步:對重復(fù)的主數(shù)據(jù)進(jìn)行去重; 第二步:對空值進(jìn)行補(bǔ)充; 第三步:按照主數(shù)據(jù)標(biāo)準(zhǔn),對引用值不規(guī)范的數(shù)據(jù)進(jìn)行統(tǒng)一調(diào)整; 第四步:調(diào)整主數(shù)據(jù)值的格式與標(biāo)準(zhǔn)一致; 第五步:刪除冗余數(shù)據(jù); 第六步:檢查主數(shù)據(jù)中與標(biāo)準(zhǔn)不一致的數(shù)據(jù)項(xiàng)進(jìn)行逐一調(diào)整。 一般情況,線下數(shù)據(jù)清洗是一個(gè)非常龐大的工作,數(shù)據(jù)質(zhì)量越差,清洗的工作量就會越大。 為了提高工作效率,三維天地提供清洗工具來輔助清洗工作。既第二種數(shù)據(jù)清洗方式——線上數(shù)據(jù)清洗。 線上清洗 線上數(shù)據(jù)清洗先將初始化數(shù)據(jù)遷移到系統(tǒng)中,系統(tǒng)上線以后,建立數(shù)據(jù)清洗模型再對數(shù)據(jù)進(jìn)行清洗。具體步驟如下: 第一步:清洗模型申請。新增一個(gè)清洗模型,選擇模型編碼,填寫關(guān)聯(lián)相似度及警告相似度。 第二步:配置清洗模型的顯示列。選擇需要參與清洗對比的列選項(xiàng)(參與相似對比的列必須啟用,且只能是在全文檢索索引設(shè)置中啟用),保存成功并提交清洗模型。 第三步:審核清洗模型。審核成功的清洗模型可進(jìn)行清洗操作。 清洗模型建好后,將要清洗的數(shù)據(jù)關(guān)聯(lián)到清洗模型中,根據(jù)清洗模型和數(shù)據(jù)標(biāo)準(zhǔn)對數(shù)據(jù)進(jìn)行清洗。大量主數(shù)據(jù)清洗時(shí),可以劃分階段進(jìn)行,保證數(shù)據(jù)清洗范圍可控,不影響系統(tǒng)及相關(guān)業(yè)務(wù)系統(tǒng)的使用。劃分原則可參考數(shù)據(jù)的申請時(shí)間、業(yè)務(wù)發(fā)生時(shí)間段、是否有庫存等。 數(shù)據(jù)清洗過程中往往會出現(xiàn)很多判斷問題,如:數(shù)據(jù)是否合乎標(biāo)準(zhǔn),是否存在錯(cuò)誤等,這些都可以通過相應(yīng)算法實(shí)現(xiàn)判斷。通過主數(shù)據(jù)清洗,可以保證主數(shù)據(jù)的唯一性、精確性、完整性、一致性、有效性,為各個(gè)應(yīng)用系統(tǒng)以及后續(xù)的分析決策提供高質(zhì)量的數(shù)據(jù)保障。 三維天地作為業(yè)界領(lǐng)先的信息標(biāo)準(zhǔn)化管理解決方案供應(yīng)商,致力于為客戶提供全方位高質(zhì)量的信息標(biāo)準(zhǔn)化管理服務(wù)。從客戶的實(shí)際需求出發(fā),以先進(jìn)的技術(shù)和定制化的服務(wù)贏得客戶的信任和支持。使信息標(biāo)準(zhǔn)化管理得到更全面的推廣,讓更多的企業(yè)體會信息標(biāo)準(zhǔn)化管理的魅力,共創(chuàng)信息化管理新時(shí)代。
- 檢驗(yàn)檢測管理平臺
- 移動應(yīng)用平臺
- 客戶服務(wù)平臺
- 科研管理平臺
- 數(shù)據(jù)分析平臺
- 質(zhì)量管理平臺
檢驗(yàn)檢測管理
- 易標(biāo)準(zhǔn)
- 供應(yīng)鏈管理軟件
- 質(zhì)量基礎(chǔ)設(shè)施服務(wù)平臺
- 云端·實(shí)驗(yàn)室信息管理平臺
供應(yīng)鏈與云服務(wù)
關(guān)注我們
Copyright ? 2022 北京三維天地科技股份有限公司,All rights reserved. 京ICP備10208408號-2 京公網(wǎng)安備 11010602103901號