隨著信息化系統的不斷建設,相關的數據量級已從TB級別躍升到PB級別,形成了名副其實的大數據。但是這些以往的海量數據大多只存在于垂直業務和單一應用中,數據過于分散且信息內容單一,而且缺乏有效的數據分析方法,數據處理效率低下,致使海量的數據無法被共享利用,嚴重制約信息化建設整體發展的速度。因此,需要通過信息化手段對已有各系統的海量數據進行整合、分類、歸納,搭建數據倉庫,實現有效的數據存儲與管理。
大數據平臺利用各種分析方法,對已有數據進行統計和分析,提供歷史數據的分析結果。幫助決策者能快速有效的從大量資料中,獲得有價值的分析結果,做出科學的決策,幫助構建商業智能(BI)。
作為一個多學科交叉的領域,數據挖掘可以用多種方式定義,例如“從數據中挖掘知識”、“知識挖掘”等。許多人把數據挖掘視為另一個流行術語——數據中的知識發現的同義詞。由以下步驟組成:(1)數據清理:清除噪聲和刪除不一致數據;(2)數據集成:多種數據源可以組合在一起;(3)數據選擇:從數據庫中提取與分析任務相關數據;(4)數據變換:通過匯總或聚集操作,把數據變換和統一成適合挖掘的形式;(5)數據挖掘:基本步驟,使用智能方法提取數據模式;(6)模式評估:根據某種興趣度量,識別代表知識的真正有趣模式;(7)知識表示:使用可視化和知識表示技術,向用戶提供挖掘的知識。
基于沃達德大數據平臺,通過對海量數據采集、處理、存儲、分析和數據挖掘,根據數據的特性,采用合適的可視化方式,將數據直觀地展現出來,以幫助人們認識數據、理解數據,同時找出包含在海量數據中的規律或者信息,預測未來發展趨勢,進行智能化決策分析,使得數據資產成為核心競爭力。