大數據平臺的建設所需的各個重要環節,包括基礎設施建設、數據采集、主數據管理、實時計算、批處理與數據倉庫、數據存儲及作業調度。完整的大數據平臺都要有數據采集、數據處理(實時處理和批處理)、數據服務和數據展示環節。數據采集,技術選型上主要考慮其支持的數據源種類和協議是否豐富,能夠對接非常多的數據源,同時盡可能地通過配置去集成數據源并采集數據。
流處理,現實生活中,很多數據是屬于流式數據,即計算的輸入并不是一個文件,而是源源不斷的數據流,如實時交易所產生的數據、各種傳感器數據。需要對這些數據進行實時分析,否則數據的價值會隨著時間的流逝而消失。通過流計算技術,構建一個高度可擴展、分布式、快速、可靠的沃達德實時計算平臺,用來處理高速流式數據。
批處理,通過構建數據倉庫實現批處理是好的選擇。數據倉庫(Data Warehouse)是面向主題的、集成的、穩定的、反映歷史變化的數據集合。沃達德數據倉庫將原本分散的數據統一抽取、清洗、加工、整理、匯聚于數據倉庫,進行智能化的分析,形成分析性報告,用于支持管理者的業務決策、構建商業智能。
主數據管理,主數據管理模塊本質上是一個傳統的Web應用,可以選擇基于Spring-Boot構建,使用MySQL作為后臺數據庫,對外通過Restful API提供主數據供給數據服務。
數據服務,可以基于Web應用技術搭建一個數據訪問服務,這個服務通過分布式數據庫提供的客戶端類庫訪問數據庫,然后對外提供Restful API數據服務。
數據展示,Web頁面上可以使用D3.js、Echarts等JavaScript圖形庫。通過直觀、生動、可交互、可個性化定制的數據可視化圖表,展示數據潛在的趨勢和內在的特性,賦予用戶極好的數據體驗。
基于沃達德大數據平臺,通過對海量數據采集、處理、存儲、分析和數據挖掘,根據數據的特性,采用合適的可視化方式,將數據直觀地展現出來,以幫助人們認識數據、理解數據,同時找出包含在海量數據中的規律或者信息,預測未來發展趨勢,進行智能化決策分析,使得數據資產成為核心競爭力。