基因組數據庫是分子生物信息數據庫的重要組成部分?;蚪M數據庫內容豐富、名目繁多、格式不一,分布在世界各地的信息中心、測序中心、以及和醫學、生物學、農業等有關的研究機構和大學?;蚪M數據庫的主體是模式生物基因組數據庫,其中主要的是由世界各國的人類基因組研究中心、測序中心構建的各種人類基因組數據庫。
基因組大數據分析,可以預測病人患多種疾病的可能性,以便及時對遺傳病等進行準確預防,也可以為復雜疾病等精準診療提供科學依據。通過沃達德大數據平臺分析和處理基因組海量數據,針對拷貝數變異、單位點變異、結構變異以及微生物物種鑒定等問題。為從事計算生物學的科研院所和現代生物學科學研究提供重要的科研價值。
近年來,數據挖掘理論及其技術研究和開發取得了較為快速的發展,其在各個領域應用有著非常廣闊的空間和潛力。數據挖掘成為解決數據處理難題的有效武器,并顯示出強大的生命力。數據挖掘主要依賴兩項技術:一是對某個領域各部門產生的各種業務數據進行整理和集成,搭建支持決策的數據分析環境,即數據倉庫;二是發現隱藏在各種監測數據之中的有用知識,即數據挖掘。
隨著國內信息化系統的不斷建設,相關的數據量級已從TB級別躍升到PB級別,形成了名副其實的大數據。但是這些以往的海量數據大多只存在于垂直業務和單一應用中,數據過于分散且信息內容單一,而且缺乏有效的數據分析方法,數據處理效率低下,致使海量的數據無法被共享利用,嚴重制約信息化建設整體發展的速度。因此,需要通過信息化手段對已有各系統的海量數據進行整合、分類、歸納,搭建數據倉庫,實現有效的數據存儲與管理。
利用各種分析方法,對已有數據進行統計和分析,提供歷史數據的分析結果。幫助決策者能快速有效的從大量資料中,獲得有價值的分析結果,做出科學的決策,幫助建構商業智能(BI)。
數據可視化是數據挖掘人員必備的技術,它不但可以幫助探索數據內存價值,還能直觀有效地展示分析結果,從而更容易讓人接受所希望傳達的關鍵信息。發現變化趨勢,在某個地區是否有聚集性;識別數據的邊緣點,如最大值、最小值、邊界數據等。目前國際上將可視化數據挖掘過程分為數據可視化、數據挖掘過程可視化、數據挖掘結果可視化、交互式可視化數據挖掘等。
基于沃達德大數據平臺,通過對海量數據采集、處理、存儲、分析和數據挖掘,根據數據的特性,采用合適的可視化方式,將數據直觀地展現出來,以幫助人們認識數據、理解數據,同時找出包含在海量數據中的規律或者信息,預測未來發展趨勢,進行智能化決策分析,使得數據資產成為核心競爭力。