基因組數據庫是分子生物信息數據庫的重要組成部分?;蚪M數據庫內容豐富、名目繁多、格式不一,分布在世界各地的信息中心、測序中心以及和醫學、生物學、農業等有關的研究機構和大學?;蚪M數據庫的主體是模式生物基因組數據庫,其中主要的是由世界各國的人類基因組研究中心、測序中心構建的各種人類基因組數據庫。
大數據基礎平臺對大規模數據集(海量數據),提供底層分布式計算和分布式存儲技術,可以擴展到數以千計的存儲和計算節點,提供高可用服務的大數據集群。沃達德大數據平臺具備數據的可靠性、安全性和高可用性,是構建整個大數據技術架構的基礎平臺。產品特性包括:分布式計算、分布式存儲、支持數以千計的存儲和計算節點、高可用服務,以及保證數據的可靠性、安全性和高可用性。
數據是一種寶貴的資源。利用新技術新方法挖掘現有數據的價值,找到數據間的關聯關系,提高基礎數據的利用率,并預測未來趨勢及行為,是國內面臨的迫切問題。一批新興的數據處理、挖掘與分析技術不斷涌現,如沃達德大數據平臺、數據倉庫、分布式數據庫、數據挖掘平臺、大數據可視化,使分析處理海量數據變得更加容易、更加便捷。
大數據平臺進行數據采集時通常要面對數據結構、業務規則、技術特性(網絡、安全、性能約束)等方面的綜合挑戰。如果數據源和大數據平臺處于相同的網絡環境,具有類似的數據結構和編碼映射,可以通過工具配置或腳本進行采集,如使用Sqoop。當需要面對和對接第三方的數據生產系統,需要遵循對方的抽取協議,以及跨網段的數據訪問,從而需要對采集應用進行一定程度上的定制,可以使用Java NIO、Netty或Mina。
Hadoop是一個成熟的大數據處理框架,允許在集群中使用簡單的編程模型對大規模數據集進行分布式計算。它被設計為可以從單一服務服務器擴展到數以千計的本地計算和存儲節點,并且Hadoop會在應用層面監測和處理錯誤,而不依靠硬件的高可用性,所以Hadoop能夠在一個每個節點都有可能出錯的集群之上提供一個高可用服務。
基于沃達德大數據平臺,通過對海量數據采集、處理、存儲、分析和數據挖掘,根據數據的特性,采用合適的可視化方式,將數據直觀地展現出來,以幫助人們認識數據、理解數據,同時找出包含在海量數據中的規律或者信息,預測未來發展趨勢,進行智能化決策分析,使得數據資產成為核心競爭力。