數據挖掘平臺在醫療領域和公共衛生領域有廣泛的應用。例如,將疾病預測模型,應用于癥狀監測,快速采集急診、門診、處方與非處方藥銷售、動物疾病等多方位的信息數據,建立數據倉庫,通過綜合、分析、比較、聚類等數據挖掘技術,能夠及早地發現突發公共衛生事件征兆,為啟動有效的應對措施贏得寶貴的時間。
數據是一種寶貴的資源。利用新技術新方法挖掘現有數據的價值,找到數據間的關聯關系,提高基礎數據的利用率,并預測未來趨勢及行為,是國內面臨的迫切問題。一批新興的數據處理、挖掘與分析技術不斷涌現,使分析處理海量數據變得更加容易、更加便捷。
通過建設大數據基礎平臺,對已有海量數據進行整合、挖掘和分析,由傳統的經驗決策模式逐步轉變為數據決策模式,可以進一步提升國內管理水平以及決策效率,并充分挖掘數據資產的重要價值。大數據基礎平臺采用模塊化結構,模塊高內聚、松耦合,應滿足高可靠、實時響應快、安全性好、開放性好,系統應易于操作、易于維護、可擴展性好。
大數據平臺進行數據采集時通常要面對數據結構、業務規則、技術特性(網絡、安全、性能約束)等方面的綜合挑戰。如果數據源和大數據平臺處于相同的網絡環境,具有類似的數據結構和編碼映射,可以通過工具配置或腳本進行采集,如使用Sqoop。當需要面對和對接第三方的數據生產系統,需要遵循對方的抽取協議,以及跨網段的數據訪問,從而需要對采集應用進行一定程度上的定制,可以使用Java NIO、Netty或Mina。
數據倉庫,英文名稱為Data Warehouse,可簡寫為DW或DWH。數據倉庫,是為企業所有級別的決策制定過程,提供所有類型數據支持的戰略集合。它是單個數據存儲,出于分析性報告和決策支持目的而創建。 為需要業務智能的企業,提供指導業務流程改進、監視時間、成本、質量以及控制。
數據倉庫設計步驟如下:(1)選擇合適的主題(所要解決問題的領域);(2)明確定義事實表;(3)確定和確認維;(4)選擇事實表;(5)計算并存儲fact表中的衍生數據段;(6)轉換維表;(7)數據庫數據采集;(8)根據需求刷新維表;(9)確定查詢優先級和查詢模式。
基于沃達德大數據平臺,通過對海量數據采集、處理、存儲、分析和數據挖掘,根據數據的特性,采用合適的可視化方式,將數據直觀地展現出來,以幫助人們認識數據、理解數據,同時找出包含在海量數據中的規律或者信息,預測未來發展趨勢,進行智能化決策分析,使得數據資產成為核心競爭力。