產品概述
在實際的應用中,需要采集的數據來源於其它係統(已經處理或加工過的)並存儲在多個關係型數據庫中。(例如:石油石化行業中,新原油價格及各種重要化工產品價格,原油、石腦油等源材料的進廠量累計,公司本年度的經營目標等,該部分數據分別來源於MES的生產數據庫和計劃係統的計劃數據庫)。jiyucileiqingkuang,womenzhuanmenkaifaleyigeshujuchouqumokuai。shujuchouqumokuai,jiangduogeguanxixingshujukuzhongdeshengchanshujuanyuxianpeizhidechouqucelveshishichouqudaozijinqiaolishishujuku。
抽取模塊組成:
數據抽取模塊由抽取配置和抽取執行程序兩部分組成。
第一部分數據抽取配置程序。
第二部分數據抽取運行程序。
功能概述:
1、可以與多種關係型數據庫進行鏈接。
2、集中抽取,可以把多個關係庫數據抽取到同一個實時數據庫中。
3、對列的類型進行轉換。
在將源端的表中內容複製到目標端時,可以通過配置條件將指定列(字段)映射到目標端的點參數上。
在將源端的表中內容複製到目標端時,通過配置條件可以增加一個數據列(字段),其值可以是固定值,也可以是表達式,然後映射到目標端的點參數上。
在將源端的表中內容複製到目標端時,通過配置條件可以在執行的結果集中刪除某列(原始表中的列不會被刪除),然後映射到目標端的點參數上。
在將源端的表中內容複製到目標端時,通過配置條件可以將源表中的某個列的類型、長度等等進行轉換。如將Varchar2類型轉換成Int類型等等。
在將源端的表中內容複製到目標端時,根據配置條件將源表的某個列的數據進行轉換。例如將“男”、“女”轉換成“0”、“1”。這種轉換不涉及第三張表,也就是說這種轉換是固定的。
4、自由指定“抽取頻率”和“基準時間”。
5、支持調用關係庫的存儲過程(必須有返回集)。
6、提供清除噪聲數據的功能。
產品架構
數據抽取配置的實現方式采用4層架構:用戶界麵層、業務處理層、傳輸層和數據處理層。
用戶界麵層
用戶界麵層為用戶提供簡潔友好的操作界麵。通過用戶界麵層可以方便的實現數據查看、編輯和維護等操作。用戶界麵層將各項操作指令發送給業務處理層,在收到業務處理的響應後顯示在界麵中。
業務處理層
業務處理層負責接收和處理用戶界麵層的各項操作指令,並將指令的執行結果發送回用戶界麵層。
業務處理層接收到用戶界麵層的指令後,首先對指令進行解析,部分指令直接在業務處理層完成邏輯處理;部bu分fen操cao作zuo需xu要yao將jiang解jie析xi後hou的de指zhi令ling通tong過guo傳chuan輸shu層ceng發fa送song給gei數shu據ju處chu理li層ceng,在zai收shou到dao執zhi行xing結jie果guo後hou發fa送song給gei用yong戶hu界jie麵mian層ceng。業ye務wu處chu理li層ceng同tong時shi管guan理li組zu織zhi機ji構gou的de各ge種zhong內nei容rong。
傳輸層
傳輸層負責將業務處理層解析後的指令發送給數據處理層,並將數據處理層的信息返回給業務處理層。
傳(chuan)輸(shu)層(ceng)通(tong)過(guo)連(lian)接(jie)管(guan)理(li)模(mo)塊(kuai)與(yu)指(zhi)定(ding)數(shu)據(ju)源(yuan)進(jin)行(xing)通(tong)訊(xun),通(tong)過(guo)用(yong)戶(hu)驗(yan)證(zheng)模(mo)塊(kuai)驗(yan)證(zheng)指(zhi)定(ding)數(shu)據(ju)源(yuan)用(yong)戶(hu)信(xin)息(xi)的(de)合(he)法(fa)性(xing)。在(zai)通(tong)訊(xun)過(guo)程(cheng)中(zhong),傳(chuan)輸(shu)層(ceng)通(tong)過(guo)消(xiao)息(xi)隊(dui)列(lie)模(mo)塊(kuai)和(he)數(shu)據(ju)緩(huan)存(cun)模(mo)塊(kuai)提(ti)高(gao)通(tong)訊(xun)效(xiao)率(lv)和(he)增(zeng)強(qiang)係(xi)統(tong)穩(wen)定(ding)性(xing)。
數據處理層
數shu據ju處chu理li層ceng負fu責ze最zui終zhong執zhi行xing操cao作zuo指zhi令ling。在zai接jie收shou到dao操cao作zuo指zhi令ling後hou,數shu據ju處chu理li層ceng與yu實shi時shi數shu據ju庫ku或huo配pei置zhi文wen件jian交jiao互hu,最zui終zhong將jiang指zhi令ling執zhi行xing結jie果guo通tong過guo傳chuan輸shu層ceng返fan回hui給gei業ye務wu處chu理li層ceng。
“ETL數據抽取”程序,抽取過程示意圖
產品特點
數據抽取的特點可以概括為:分布部署、快速實施、維護便捷。
分布式配置:隨(sui)著(zhe)分(fen)布(bu)式(shi)技(ji)術(shu)和(he)負(fu)載(zai)均(jun)衡(heng)技(ji)術(shu)的(de)廣(guang)泛(fan)應(ying)用(yong),越(yue)來(lai)越(yue)多(duo)的(de)情(qing)況(kuang)需(xu)要(yao)遠(yuan)程(cheng)配(pei)置(zhi)抽(chou)取(qu)信(xin)息(xi)。為(wei)了(le)適(shi)應(ying)這(zhe)種(zhong)變(bian)化(hua),數(shu)據(ju)抽(chou)取(qu)從(cong)設(she)計(ji)之(zhi)初(chu)即(ji)采(cai)用(yong)分(fen)布(bu)式(shi)架(jia)構(gou)。通(tong)過(guo)選(xuan)擇(ze)數(shu)據(ju)源(yuan)的(de)方(fang)式(shi),可(ke)以(yi)在(zai)本(ben)地(di)數(shu)據(ju)庫(ku)係(xi)統(tong)完(wan)成(cheng)對(dui)指(zhi)定(ding)數(shu)據(ju)源(yuan)中(zhong)抽(chou)取(qu)信(xin)息(xi)的(de)配(pei)置(zhi)。
集中抽取:支持由多個不同種類或相同種類的關係型數據庫數據向同一個實時數據庫抽取。
清除噪聲數據:數據倉庫係統中有可能存在著大量的噪聲數據,引起的主要原因有:濫用縮寫詞、慣用語、數據輸入錯誤、重複記錄、丟失值等。即便是一個設計和規劃良好的數據庫係統,如果其中存在著大量的噪聲數據,那麼這個係統也是沒有任何意義的,因為“垃圾進,垃圾出”(garbage in, garbage out),係統根本就不可能為決策分析係統提供任何支持。為了清除噪聲數據,必須在數據庫係統中進行數據清洗。數據抽取可以通過“匹配項”來完成數據的映射,從而達到清除噪聲數據的目的。
靈活的組織管理:數(shu)據(ju)抽(chou)取(qu)可(ke)以(yi)按(an)照(zhao)需(xu)要(yao)任(ren)意(yi)組(zu)織(zhi)層(ceng)級(ji)關(guan)係(xi)。如(ru)果(guo)發(fa)現(xian)層(ceng)級(ji)關(guan)係(xi)建(jian)立(li)錯(cuo)誤(wu),或(huo)實(shi)際(ji)層(ceng)級(ji)關(guan)係(xi)發(fa)生(sheng)改(gai)變(bian)時(shi),現(xian)有(you)的(de)層(ceng)級(ji)並(bing)不(bu)需(xu)要(yao)刪(shan)除(chu),而(er)是(shi)通(tong)過(guo)簡(jian)單(dan)的(de)剪(jian)切(qie)與(yu)粘(zhan)貼(tie)即(ji)可(ke)完(wan)成(cheng)。
更多資訊,請登錄:www.realsoft.cc