大數據基礎平臺對大規模數據集(海量數據),提供底層分布式計算和分布式存儲技術,可以擴展到數以千計的存儲和計算節點,提供高可用服務的大數據集群。大數據平臺具備數據的可靠性、安全性和高可用性,是構建整個大數據技術架構的基礎平臺。產品特性包括:分布式計算、分布式存儲、支持數以千計的存儲和計算節點、高可用服務,以及保證數據的可靠性、安全性和高可用性。
數據是一種寶貴的資源。利用新技術新方法挖掘現有數據的價值,找到數據間的關聯關系,提高基礎數據的利用率,并預測未來趨勢及行為,是面臨的迫切問題。一批新興的數據處理、挖掘與分析技術不斷涌現,如大數據平臺、數據倉庫、分布式數據庫、數據挖掘平臺、大數據可視化,使分析處理海量數據變得更加容易、更加便捷。
Hadoop是一個成熟的大數據處理框架,允許在集群中使用簡單的編程模型對大規模數據集進行分布式計算。它被設計為可以從單一服務服務器擴展到數以千計的本地計算和存儲節點,并且Hadoop會在應用層面監測和處理錯誤,而不依靠硬件的高可用性,所以Hadoop能夠在一個每個節點都有可能出錯的集群之上提供一個高可用服務。
Hadoop具有如下幾個特點:(1)Hadoop是一個框架。Hadoop是由一系列的軟件庫組成的框架。這些軟件庫也可稱作功能模塊,它們各自負責Hadoop的一部分功能,其中主要的是Common、HDFS和YARN。HDFS負責數據的存儲,YARN負責統一資源調度和管理,Common提供遠程過程調用RPC、序列化機制等。
(2)Hadoop適合處理大規模數據。Hadoop海量數據的處理能力十分可觀,并且能夠實現分布式存儲和分布式計算,在統一的資源管理和調度平臺,擴展能夠十分優秀。
(3)Hadoop被部署在一個集群上。集群是一組通過網絡互聯的計算機。集群里每一臺計算機稱作一個節點。Hadoop被部署在集群之上,對外提供服務。當節點數量多的時候,故障將成為一種常態而不是異常現象。數據的災備以及應用的容錯,對于用戶是透明的。用戶得到的是一個提供高可用服務的集群。
基于沃達德大數據平臺,通過對海量數據采集、處理、存儲、分析和數據挖掘,根據數據的特性,采用合適的可視化方式,將數據直觀地展現出來,以幫助人們認識數據、理解數據,同時找出包含在海量數據中的規律或者信息,預測未來發展趨勢,進行智能化決策分析,使得數據資產成為核心競爭力。