醫學科學直接關乎全人類的生命健康,以數據創新探索未來的醫學科學,在龐大的數據資源中快速獲取信息、提升人類醫療集體經驗,具有十分重要的意義和醫療價值。
醫療衛生領域每年都會產生海量數據,包括行政管理數據、服務結算數據、門診記錄、住院記錄、醫療影像數據、用藥記錄、手術記錄、醫保數據等。通過大數據技術,可以有效輔助臨床決策、支持臨床方案;對流行病進行大數據分析和有效預警;可以使用圖像識別和分析技術,自動識別醫療影像X光、CT、MRI數據,通過大數據挖掘醫療文獻數據,給醫生提供診療建議。
國內及全球信息系統經過多年的運行,沉淀了海量的視頻、圖片、圖表、文字等相關數據。這些數據具有量大、高維、多源、異構、動態、時效、連續、無限等特點。由于種種原因這些數據大多只存在于垂直業務和單一應用中,數據過于分散,并未被充分整合加以利用和挖掘。隨著信息化系統的不斷建設,相關的數據量級已從TB級別躍升到PB級別,足以支撐起行業應用大數據來解決相關問題。經過多年的發展也積累了大量的大數據處理分析的應用需求,具備基于海量數據進行相應數據挖掘的基礎。
數據是一種寶貴的資源。利用新技術新方法挖掘現有數據的價值,找到數據間的關聯關系,提高基礎數據的利用率,并預測未來趨勢及行為,是國內面臨的迫切問題。一批新興的數據處理、挖掘與分析技術不斷涌現,使分析處理海量數據變得更加容易、更加便捷。
通過建設大數據基礎平臺,對已有海量數據進行整合、挖掘和分析,由傳統的經驗決策模式逐步轉變為數據決策模式,可以進一步提升國內管理水平以及決策效率,并充分挖掘數據資產的重要價值。大數據基礎平臺采用模塊化結構,模塊高內聚、松耦合,應滿足高可靠、實時響應快、安全性好、開放性好,系統應易于操作、易于維護、可擴展性好。
大數據平臺進行數據采集時通常要面對數據結構、業務規則、技術特性(網絡、安全、性能約束)等方面的綜合挑戰。如果數據源和大數據平臺處于相同的網絡環境,具有類似的數據結構和編碼映射,可以通過工具配置或腳本進行采集,如使用Sqoop。當需要面對和對接第三方的數據生產系統,需要遵循對方的抽取協議,以及跨網段的數據訪問,從而需要對采集應用進行一定程度上的定制,可以使用Java NIO、Netty或Mina。
基于沃達德大數據平臺,通過對海量數據采集、處理、存儲、分析和數據挖掘,根據數據的特性,采用合適的可視化方式,將數據直觀地展現出來,以幫助人們認識數據、理解數據,同時找出包含在海量數據中的規律或者信息,預測未來發展趨勢,進行智能化決策分析,使得數據資產成為核心競爭力。