數據是一種寶貴的資源。利用新技術新方法挖掘現有數據的價值,找到數據間的關聯關系,提高基礎數據的利用率,并預測未來趨勢及行為,是國內面臨的迫切問題。一批新興的數據處理、挖掘與分析技術不斷涌現,使分析處理海量數據變得更加容易、更加便捷。
通過建設大數據基礎平臺,對已有海量數據進行整合、挖掘和分析,由傳統的經驗決策模式逐步轉變為數據決策模式,可以進一步提升國內管理水平以及決策效率,并充分挖掘數據資產的重要價值。大數據基礎平臺采用模塊化結構,模塊高內聚、松耦合,應滿足高可靠、實時響應快、安全性好、開放性好,系統應易于操作、易于維護、可擴展性好。
大數據平臺進行數據采集時通常要面對數據結構、業務規則、技術特性(網絡、安全、性能約束)等方面的綜合挑戰。如果數據源和大數據平臺處于相同的網絡環境,具有類似的數據結構和編碼映射,可以通過工具配置或腳本進行采集,如使用Sqoop。當需要面對和對接第三方的數據生產系統,需要遵循對方的抽取協議,以及跨網段的數據訪問,從而需要對采集應用進行一定程度上的定制,可以使用Java NIO、Netty或Mina。
數據倉庫,英文名稱為Data Warehouse,可簡寫為DW或DWH。數據倉庫,是為企業所有級別的決策制定過程,提供所有類型數據支持的戰略集合。它是單個數據存儲,出于分析性報告和決策支持目的而創建。 為需要業務智能的企業,提供指導業務流程改進、監視時間、成本、質量以及控制。
數據倉庫是一個面向主題的、集成的、時變的、非易失的數據集合,支持管理者的決策過程。數據倉庫的主要特征:(1)面向主題的(subject-oriented):數據倉庫圍繞一些重要的主題,如顧客、供應商、產品和銷售組織。(2)集成的(integrated):通常,構造數據倉庫是將多個異構數據源,如關系數據庫、一般文件和聯機事務處理記錄集成在一起。(3)時變的(time-variant):數據倉庫從歷史的角度(如過去5~10年)提供信息。數據倉庫中關鍵結構都隱式地或顯示地包含時間元素。(4)非易失的(nonvolatile):數據倉庫總是物理地分離存放數據,這些數據源于操作環境下的應用數據。由于這種分離,數據倉庫不需要事務處理、恢復和并發控制機制。
基于沃達德大數據平臺,通過對海量數據采集、處理、存儲、分析和數據挖掘,根據數據的特性,采用合適的可視化方式,將數據直觀地展現出來,以幫助人們認識數據、理解數據,同時找出包含在海量數據中的規律或者信息,預測未來發展趨勢,進行智能化決策分析,使得數據資產成為核心競爭力。