這些年,大數(shù)據(jù)作為一個(gè)時(shí)髦概念,出現(xiàn)頻率很高,關(guān)注度也很高。它不只是一項(xiàng)數(shù)據(jù)存儲(chǔ)技術(shù),而是一系列和海量數(shù)據(jù)相關(guān)的抽取、集成、管理、分析、解釋技術(shù),是通過獲取、存儲(chǔ)、分析,從大容量數(shù)據(jù)中挖掘價(jià)值的一種全新的技術(shù)構(gòu)。
大數(shù)據(jù)的處理過程可以分為大數(shù)據(jù)采集、存儲(chǔ)、結(jié)構(gòu)化處理、隱私保護(hù)、挖掘、結(jié)果展示(發(fā)布)等。各種領(lǐng)域的大數(shù)據(jù)應(yīng)用一般都會(huì)涉及到這些基本過程,但不同應(yīng)用可能會(huì)有所側(cè)重。
選擇合適的大數(shù)據(jù)技術(shù)平臺(tái)應(yīng)當(dāng)考慮以下因素:
(1)平臺(tái)的集成度
好的平臺(tái)應(yīng)該具有較高的集成度,為用戶提供良好的操作界面,具有完善的幫助和使用手冊(cè)、系統(tǒng)易于配置、移植性好。同時(shí)隨著目前軟件開源的趨勢(shì),開源平臺(tái)有助于其版本的快速升級(jí),盡快發(fā)現(xiàn)其中的bug,此外,開源的架構(gòu)也比較容易進(jìn)行擴(kuò)展,植入更多的新算法,這對(duì)于最終用戶而言也是比較重要的。
(2)平臺(tái)的功能與性能
由于不同平臺(tái)側(cè)重的功能不同,平臺(tái)的性能也就有很多需要考察的方面。比如對(duì)于存儲(chǔ)平臺(tái)來說,數(shù)據(jù)的存儲(chǔ)效率、讀寫效率、并發(fā)訪問能力、對(duì)結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)的支持,所提供的數(shù)據(jù)訪問接口等方面就是比較重要的。對(duì)于大數(shù)據(jù)挖掘平臺(tái)來說,所支持的挖掘算法、算法的封裝程度、數(shù)據(jù)挖掘結(jié)果的展示能力、挖掘算法的時(shí)間和空間復(fù)雜度等,是比較重要的指標(biāo)。
(3)是否符合技術(shù)發(fā)展趨勢(shì)
大數(shù)據(jù)技術(shù)是當(dāng)前發(fā)展和研究的熱點(diǎn),其最終將走向逐步成熟,可以預(yù)見在這個(gè)過程中,并非所有的技術(shù)平臺(tái)都能生存下來。只有符合技術(shù)發(fā)展趨勢(shì)的技術(shù)平臺(tái)才會(huì)被用戶、被技術(shù)開發(fā)人員所接受。因此,一些不支持分布式、集群計(jì)算的平臺(tái)大概只能針對(duì)較小的數(shù)據(jù)量,側(cè)重于對(duì)挖掘算法的驗(yàn)證。而與云計(jì)算、物聯(lián)網(wǎng)、人工智能聯(lián)系密切的技術(shù)平臺(tái)將成為主流,是技術(shù)發(fā)展趨勢(shì)。