日本在线观看不卡,国产成人免费观看,国产gaysex男同视频chinese,欧美一级www

SCI期刊 | 網(wǎng)站地圖 周一至周日 8:00-22:30
你的位置:首頁(yè) >  信息科學(xué)論文 ? 正文

大數(shù)據(jù)應(yīng)用技術(shù)和潛在問(wèn)題研究

2021-4-9 | 信息科學(xué)論文

大數(shù)據(jù)應(yīng)用的技術(shù)體系

1.云計(jì)算及其編程模型MapReduce

1)云計(jì)算簡(jiǎn)述:大約從2007年下半年開(kāi)始,云計(jì)算由于其能提供靈活動(dòng)態(tài)的IT平臺(tái),服務(wù)質(zhì)量保證的計(jì)算環(huán)境以及可配置的軟件服務(wù)而成為熱門(mén)話題。文獻(xiàn)中給出了云計(jì)算的比較完整的定義:云計(jì)算一個(gè)大規(guī)模的由規(guī)模經(jīng)濟(jì)驅(qū)動(dòng)的分布式模型,位于其中的抽象的、虛擬的、動(dòng)態(tài)可擴(kuò)展的、可管理的計(jì)算能源、存儲(chǔ)、平臺(tái)、服務(wù)等通過(guò)因特網(wǎng)交付給外圍客戶。由上述云計(jì)算的定義我們知道,云計(jì)算首先得是大規(guī)模的、分布式的,少量的計(jì)算處理用不著云計(jì)算;其次,它是跟規(guī)模經(jīng)濟(jì)相關(guān)聯(lián)的,比較形象的說(shuō)法是,云計(jì)算資源跟“電”和“水”一樣,是按需收費(fèi)的,并且是大規(guī)模式銷(xiāo)售的,通常在建立數(shù)據(jù)中心時(shí)會(huì)考慮成本因素;最后,它從廣義上說(shuō)是給客戶的一種服務(wù),可以包括提供存儲(chǔ)、計(jì)算等資源。云計(jì)算可以按服務(wù)的內(nèi)容和交付形式分為基礎(chǔ)設(shè)施即服務(wù)(IaaS)、平臺(tái)即服務(wù)(PaaS)、軟件即服務(wù)(SaaS)等。在單機(jī)芯片集成度已進(jìn)入極小尺度級(jí)別,指令級(jí)并行度提升也已接近極限的今天,縱向擴(kuò)展似乎已經(jīng)不夠現(xiàn)實(shí),這也遠(yuǎn)遠(yuǎn)不能滿足大數(shù)據(jù)處理的要求,而云計(jì)算的要求比較寬松的允許異構(gòu)網(wǎng)絡(luò)的橫向擴(kuò)展,無(wú)疑給大數(shù)據(jù)處理帶來(lái)了方便。云計(jì)算能為大數(shù)據(jù)提供強(qiáng)大的存儲(chǔ)和計(jì)算能力,可以迅速、方便地為大數(shù)據(jù)提供服務(wù),另一方面,大數(shù)據(jù)的處理需求也為云計(jì)算提供了更多更好地應(yīng)用場(chǎng)景。由此,云計(jì)算作為大數(shù)據(jù)的支撐技術(shù)而倍受業(yè)界關(guān)注。

2)MapReduce簡(jiǎn)述:關(guān)系數(shù)據(jù)庫(kù)作為一門(mén)發(fā)展了近40年的主流數(shù)據(jù)管理技術(shù),主要用于聯(lián)機(jī)事務(wù)處理(OLTP)應(yīng)用、聯(lián)機(jī)分析處理(OLAP)應(yīng)用和數(shù)據(jù)倉(cāng)庫(kù)等,然而擴(kuò)展性方面的局限使得其在大數(shù)據(jù)時(shí)代遇到了極大障礙。2004年,谷歌公司提出的MapReduce技術(shù),以其利用大規(guī)模廉價(jià)服務(wù)器以達(dá)到并行處理大數(shù)據(jù)的目的而倍受學(xué)術(shù)界和工業(yè)界的關(guān)注,廣泛應(yīng)用于機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘等諸多領(lǐng)域?;贛apReduce的大數(shù)據(jù)分析處理研究也在不斷深入,MapReduce作為一種非關(guān)系數(shù)據(jù)庫(kù)的數(shù)據(jù)管理工具代表,克服了關(guān)系數(shù)據(jù)庫(kù)擴(kuò)展性方面的不足,將計(jì)算推向數(shù)據(jù)也迎合了大數(shù)據(jù)時(shí)代的內(nèi)在需要,成為大數(shù)據(jù)處理的基本工具。而Hadoop作為模仿MapReduce而實(shí)現(xiàn)的一個(gè)云計(jì)算開(kāi)源平臺(tái),目前已成為最為流行的大數(shù)據(jù)處理平臺(tái)。MapReduce對(duì)于大數(shù)據(jù)處理的基本構(gòu)思是分而治之,將大數(shù)據(jù)任務(wù)分解為多個(gè)子任務(wù),將得到的各個(gè)子結(jié)果組合并成為最終結(jié)果。MapReduce對(duì)大數(shù)據(jù)的處理可抽象為兩個(gè)主要階段,Map階段對(duì)初始的鍵-值(Key/Value)對(duì)進(jìn)行處理,產(chǎn)生一系列的中間結(jié)果Key/Value對(duì),然后通過(guò)Reduce階段合并所有具有相同Key值的Key/Value對(duì),得到最終結(jié)果。MapReduce對(duì)數(shù)據(jù)進(jìn)行處理的應(yīng)用思路如圖2所示。

2.大數(shù)據(jù)獲取技術(shù)

每天都有大量數(shù)據(jù)產(chǎn)生,并且這些數(shù)據(jù)通過(guò)不同的途徑,以不同的形式被接收和記錄。本節(jié)將簡(jiǎn)單介紹幾種常見(jiàn)的大數(shù)據(jù)獲取途徑。

(1)傳感器技術(shù):近年來(lái),傳感器技術(shù)蓬勃發(fā)展,無(wú)論是道路交通方面,還是醫(yī)療機(jī)構(gòu)方面甚至是個(gè)人工作和生活場(chǎng)所,傳感器無(wú)處不在,大量的數(shù)據(jù)源源不斷地被傳感器所接收。可以說(shuō),傳感器的迅速普及,為大數(shù)據(jù)的獲取提供了有力地保障。傳感器技術(shù)的快速發(fā)展,也促進(jìn)了傳感器網(wǎng)絡(luò)的逐步完善。由于構(gòu)建傳感器網(wǎng)絡(luò)的設(shè)備、數(shù)據(jù)收集、數(shù)據(jù)存儲(chǔ)等方面的差異性,網(wǎng)絡(luò)孤島普遍存在,如何解決異構(gòu)網(wǎng)絡(luò)所帶來(lái)的數(shù)據(jù)共享問(wèn)題一度成為研究者們面臨的極大挑戰(zhàn)。不過(guò)隨后美國(guó)國(guó)家技術(shù)標(biāo)準(zhǔn)局(NIST)和IEEE共同組織了關(guān)于制訂智能傳感器接口和連接網(wǎng)絡(luò)通用標(biāo)準(zhǔn)的研討會(huì),產(chǎn)生了IEEE1451傳感器/執(zhí)行器、智能變送器接口標(biāo)準(zhǔn)協(xié)議族,試圖解決傳感器市場(chǎng)上總線不兼容的問(wèn)題。2005年,開(kāi)放地理空間聯(lián)盟(OGC)提出了一種新型的傳感器Web整合框架標(biāo)準(zhǔn),讓用戶能透過(guò)Web的界面來(lái)進(jìn)行節(jié)點(diǎn)搜尋、數(shù)據(jù)獲取及節(jié)點(diǎn)控制功能。文獻(xiàn)[12]對(duì)無(wú)線傳感器網(wǎng)路的路由協(xié)議進(jìn)行了研究,指出多路徑路由發(fā)展的趨勢(shì)和挑戰(zhàn),而文獻(xiàn)[13]則從生物學(xué)、商業(yè)、環(huán)境、醫(yī)療、工業(yè)以及軍事等領(lǐng)域探討無(wú)線傳感器的重要用途。

(2)Web2.0技術(shù):“Web2.0”的概念2004年始于出版社經(jīng)營(yíng)者O'Reilly和MediaLiveInternational之間的一場(chǎng)頭腦風(fēng)暴論壇,所謂的Web2.0是指互聯(lián)網(wǎng)上的每一個(gè)用戶的身份由單純的“讀者”進(jìn)化為了“作者”以及“共同建設(shè)人員”,由被動(dòng)地接收互聯(lián)網(wǎng)信息向主動(dòng)創(chuàng)造互聯(lián)網(wǎng)信息發(fā)展。Web2.0伴隨著博客、百科全書(shū)以及社交網(wǎng)絡(luò)等多種應(yīng)用技術(shù)的發(fā)展,大量的網(wǎng)頁(yè)點(diǎn)擊與交流促使了大數(shù)據(jù)的形成,給人類日常生活方式帶來(lái)了極大的變革。

(3)條形碼技術(shù):條形碼的使用給零售業(yè)帶來(lái)了革命性的改變,通過(guò)內(nèi)嵌ID等信息,條形碼在被掃描之后,快速在數(shù)據(jù)庫(kù)中進(jìn)行ID匹配,便很快就獲知該產(chǎn)品的價(jià)格、性能、產(chǎn)商等具體信息,條形碼被廣泛應(yīng)用于零售商店的收銀以及車(chē)站售票等業(yè)務(wù)中,每天大量的商品銷(xiāo)售記錄通過(guò)掃描條形碼而產(chǎn)生。近年來(lái)的智能手機(jī)的盛行,手機(jī)應(yīng)用如微信中的二維條形碼也隨處可見(jiàn),文獻(xiàn)[14]中設(shè)計(jì)了一種應(yīng)用于手機(jī)應(yīng)用的彩色二維條形碼,改善了用戶對(duì)應(yīng)用程序的感受。

(4)RFID技術(shù):RFID與條形碼相比,擴(kuò)展了操作距離,且標(biāo)簽的使用比條形碼容易,攜帶一個(gè)可移動(dòng)的閱讀器便可收集到標(biāo)簽的信息,被廣泛應(yīng)用于倉(cāng)庫(kù)管理和清單控制方面。RFID標(biāo)簽可以分為兩類,一類是被動(dòng)的,如今被廣泛使用,其造價(jià)便宜,但是沒(méi)有內(nèi)部電源,依靠閱讀器的射頻波產(chǎn)生能量,操作距離也很近,因而其適用性也受到了制約;另一類是主動(dòng)的,其擁有內(nèi)部電源,因此造價(jià)較貴,但是操作距離遠(yuǎn),存儲(chǔ)能力強(qiáng),因而適用范圍廣,在未來(lái)這種標(biāo)簽會(huì)受到普遍歡迎的。學(xué)術(shù)界在RFID技術(shù)的研究上已經(jīng)取得巨大的進(jìn)步。較早的工作重心大多集中在對(duì)標(biāo)簽進(jìn)行搜集的問(wèn)題上,即盡可能快地在大量標(biāo)簽中搜集他們的ID,而這方面最大的挑戰(zhàn)是解決多標(biāo)簽同時(shí)競(jìng)爭(zhēng)較窄的信道引起沖突的問(wèn)題。研究者們提出了兩類解決思路,即基于ALOHA的協(xié)議[15-17]和基于樹(shù)的協(xié)議[18-20]。而其他的工作專注于標(biāo)簽評(píng)估問(wèn)題,即使用統(tǒng)計(jì)學(xué)的方法來(lái)評(píng)估一個(gè)龐大系統(tǒng)中的標(biāo)簽數(shù)目[21-23]??傊?,RFID由于具有操作范圍廣泛、性能穩(wěn)定以及高存儲(chǔ)能力等特性,在工業(yè)界中將具有巨大的潛力。

(5)移動(dòng)終端技術(shù):隨著科學(xué)技術(shù)的發(fā)展,移動(dòng)終端諸如手機(jī)、筆記本、平板電腦等隨處可見(jiàn),加上網(wǎng)絡(luò)的寬帶化發(fā)展以及集成電路的升級(jí),人類已經(jīng)步入了真正的移動(dòng)信息時(shí)代。如今的移動(dòng)終端已經(jīng)擁有極強(qiáng)的處理能力,通信、定位以及掃描功能應(yīng)有盡有,大量的移動(dòng)軟件程序被開(kāi)發(fā)并應(yīng)用,人們無(wú)時(shí)無(wú)刻不在接收和發(fā)送信息。目前,智能手機(jī)等移動(dòng)設(shè)備的數(shù)量仍然在迅猛增長(zhǎng)中,移動(dòng)社交網(wǎng)絡(luò)也會(huì)日益龐大和復(fù)雜,海量的數(shù)據(jù)穿梭其中,針對(duì)移動(dòng)數(shù)據(jù)的處理也將越來(lái)越復(fù)雜。

3.文件系統(tǒng)

文件系統(tǒng)是支撐上層應(yīng)用的基礎(chǔ),本小節(jié)將簡(jiǎn)要介紹面向大數(shù)據(jù)處理的文件系統(tǒng)如谷歌分布式文件系統(tǒng)(GFS),以及一些其他的分布式文件系統(tǒng)。

1)分布式文件系統(tǒng)GFS:谷歌自行開(kāi)發(fā)的文件系統(tǒng)GFS[24],是一個(gè)基于分布式集群的大型的分布式文件系統(tǒng),它為MapReduce計(jì)算框架提供底層數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)可靠性。GFS采用廉價(jià)普通磁盤(pán),并把磁盤(pán)數(shù)據(jù)出錯(cuò)視為常態(tài),其自動(dòng)多數(shù)據(jù)備份存儲(chǔ)也增加了可靠性。GFS基本構(gòu)架中,GFSMaster保存了GFS文件系統(tǒng)的3種元數(shù)據(jù):命名空間、Chunk與文件名的映射表、Chunk副本的位置信息,前兩個(gè)數(shù)據(jù)通過(guò)操作日志提供容錯(cuò)處理能力,第3個(gè)數(shù)據(jù)存儲(chǔ)在ChunkServer上,可在Master失效時(shí)快速恢復(fù)Master上的元數(shù)據(jù);GFSChunkServer是用來(lái)保存大量實(shí)際數(shù)據(jù)的數(shù)據(jù)服務(wù)器。GFS基本工作過(guò)程如下:(1)在程序運(yùn)行前,數(shù)據(jù)已經(jīng)存儲(chǔ)在GFS文件系統(tǒng)中,程序執(zhí)行時(shí)應(yīng)用程序會(huì)告訴GFSServer所要訪問(wèn)的文件名或者數(shù)據(jù)塊索引是什么。(2)GFSServer根據(jù)文件名和數(shù)據(jù)塊索引在其文件目錄空間中查找和定位該文件或數(shù)據(jù)塊,并將這些位置信息回送給應(yīng)用程序。(3)應(yīng)用程序根據(jù)GFSServer返回的具體Chunk數(shù)據(jù)塊位置信息,直接訪問(wèn)相應(yīng)的ChunkServer。(4)應(yīng)用程序直接讀取指定位置的數(shù)據(jù)進(jìn)行計(jì)算處理。后來(lái)谷歌對(duì)GFS進(jìn)行了改進(jìn),并對(duì)新版本命名為Colosuss,主要對(duì)原有的單點(diǎn)故障、海量小文件存儲(chǔ)等諸多問(wèn)題進(jìn)行了修正和改進(jìn),使得系統(tǒng)更加安全和健壯。

2)其他文件系統(tǒng):除了谷歌的GFS,業(yè)界其他針對(duì)大數(shù)據(jù)存儲(chǔ)需求的文件系統(tǒng)也層出不窮。Hadoop的文件系統(tǒng)HDFS[25]作為模仿GFS的開(kāi)源實(shí)現(xiàn),同樣也為Hadoop的底層數(shù)據(jù)存儲(chǔ)支撐,提供數(shù)據(jù)的高可靠性和容錯(cuò)能力,擁有良好的擴(kuò)展性和高速數(shù)據(jù)訪問(wèn)性;SUN公司開(kāi)發(fā)的Lustre[26]是一個(gè)大規(guī)模的、安全可靠的、具備高可用性的開(kāi)源集群文件系統(tǒng),美國(guó)能源部在此基礎(chǔ)上實(shí)現(xiàn)了新一代的集群系統(tǒng),顯著提高了輸入輸出速度,已在高校、國(guó)家實(shí)驗(yàn)室和超級(jí)計(jì)算研究中心產(chǎn)生了深遠(yuǎn)影響;Facebook推出的針對(duì)海量小文件的文件系統(tǒng)Haystack[27]有效地解決了海量圖片存儲(chǔ)問(wèn)題,它實(shí)現(xiàn)多個(gè)邏輯文件共享一個(gè)物理文件功能,并且增加緩存層,部分元數(shù)據(jù)直接被加載到了內(nèi)存。

4.數(shù)據(jù)庫(kù)系統(tǒng)

1)上在索引、數(shù)據(jù)壓縮、可視化等技術(shù)方面的不斷擴(kuò)展,使其具有了高性能的優(yōu)勢(shì)。但是諸多因素導(dǎo)致了其擴(kuò)展性面臨嚴(yán)峻的挑戰(zhàn),主要體現(xiàn)在:(1)單機(jī)方面,并行數(shù)據(jù)庫(kù)基于高端硬件設(shè)計(jì),認(rèn)為查詢失敗是特例且糾錯(cuò)復(fù)雜,不符合大規(guī)模集群失效常態(tài)的特性;(2)集群方面,并行數(shù)據(jù)庫(kù)對(duì)異構(gòu)網(wǎng)絡(luò)支持有限,各節(jié)點(diǎn)性能不均,容易引起“木桶效應(yīng)”??傊?,并行數(shù)據(jù)庫(kù)的擴(kuò)展性方面的缺陷使其面臨大數(shù)據(jù)的處理往往力不從心。

2)MapReduce分布式數(shù)據(jù)庫(kù)BigTable:由前述知,并行數(shù)據(jù)庫(kù)由于擴(kuò)展性方面的缺陷無(wú)法勝任大數(shù)據(jù)的處理工作,以谷歌公司推出的BigTable為代表的未采用關(guān)系模型的NoSQL(NotonlySQL)數(shù)據(jù)庫(kù)由此誕生,NoSQL數(shù)據(jù)庫(kù)具有模式自由、簡(jiǎn)易備份、接口簡(jiǎn)單和支持海量數(shù)據(jù)等特性,對(duì)于大數(shù)據(jù)的存儲(chǔ)和處理十分有效。谷歌在GFS之上又設(shè)計(jì)了MapReduce的分布式數(shù)據(jù)庫(kù)BigTable[28],為應(yīng)用程序提供了比單純地文件系統(tǒng)更方便、更高層的數(shù)據(jù)操作能力,BigTable提供了一定粒度的結(jié)構(gòu)化數(shù)據(jù)操作能力,主要解決一些大型媒體數(shù)據(jù)(Web文檔、圖片等)的結(jié)構(gòu)化存儲(chǔ)問(wèn)題。BigTable主要是一個(gè)分布式多維表,表中數(shù)據(jù)通過(guò)行關(guān)鍵字、列關(guān)鍵字和時(shí)間戳來(lái)進(jìn)行索引和查詢定位,并且BigTable對(duì)存儲(chǔ)在表中的數(shù)據(jù)不做任何解釋,一律視為字串,具體數(shù)據(jù)結(jié)構(gòu)的實(shí)現(xiàn)由用戶自行定義。BigTable的基本構(gòu)架如圖3所示,BigTable中的數(shù)據(jù)均以子表形式保存在子表服務(wù)器上,最終以GFS文件形式存儲(chǔ)在GFS文件系統(tǒng)中。客戶端程序直接和子表服務(wù)器通信,Chubby服務(wù)器完成對(duì)子表服務(wù)器的狀態(tài)監(jiān)控,主服務(wù)器通過(guò)查看Chubby服務(wù)器目錄來(lái)終止出現(xiàn)故障的子服務(wù)器并將其數(shù)據(jù)轉(zhuǎn)移至其他子服務(wù)器。另外,主服務(wù)器還完成子表的創(chuàng)建和負(fù)載均衡等操作。當(dāng)然,由于MapReduce將本來(lái)應(yīng)由數(shù)據(jù)庫(kù)管理系統(tǒng)完成的諸如文件存儲(chǔ)格式的設(shè)計(jì)、模式信息的記錄、數(shù)據(jù)處理算法的實(shí)現(xiàn)等工作轉(zhuǎn)移給了程序員,從而導(dǎo)致程序員負(fù)擔(dān)過(guò)重。另外,MapReduce是面向非結(jié)構(gòu)化的大規(guī)模數(shù)據(jù)處理的,往往是一次處理,因而同等硬件條件下的性能也比并行數(shù)據(jù)庫(kù)低[29]。

3)數(shù)據(jù)庫(kù)的深層探討:并行數(shù)據(jù)庫(kù)具有高性能的優(yōu)勢(shì),但擴(kuò)展性問(wèn)題阻礙了其在大數(shù)據(jù)處理上的進(jìn)一步發(fā)展,而MapReduce性能和易用性上提升空間較大,因此目前兩種方案均不理想。業(yè)界經(jīng)過(guò)長(zhǎng)時(shí)間的探討,基本一致認(rèn)為并行數(shù)據(jù)庫(kù)和MapReduce各取其長(zhǎng),相互融合,也許是一種不錯(cuò)的道路[30]。由此誕生了并行數(shù)據(jù)庫(kù)主導(dǎo)型、MapReduce主導(dǎo)型以及并行數(shù)據(jù)庫(kù)與MapReduce集成型3類大數(shù)據(jù)處理數(shù)據(jù)庫(kù)。

(1)并行數(shù)據(jù)庫(kù)主導(dǎo):型這類數(shù)據(jù)庫(kù)的基本思路是在并行數(shù)據(jù)庫(kù)上增加MapReduce的大數(shù)據(jù)處理能力,將數(shù)據(jù)分析過(guò)程轉(zhuǎn)移到數(shù)據(jù)庫(kù)內(nèi)進(jìn)行,使得原系統(tǒng)同時(shí)獲得SQL的易用性與MapReduce的開(kāi)放性。但是,并行數(shù)據(jù)庫(kù)的擴(kuò)展能力與容錯(cuò)能力并未得到改善,典型的系統(tǒng)如Greenplum[31]、Asterdata[32]等。

(2)MapReduce主導(dǎo)型:這類數(shù)據(jù)庫(kù)的基本思路是利用關(guān)系數(shù)據(jù)庫(kù)的SQL接口和模式支持技術(shù)改善MapReduce的易用性。通過(guò)SQL接口,可以很簡(jiǎn)便的完成查詢分析等操作,大大減輕了程序員的負(fù)擔(dān),但MapReduce的性能方面仍有待提升,典型的系統(tǒng)如Facebook的Hive[33]和Yahoo!的PigLatin[34]等。

(3)并行數(shù)據(jù)庫(kù)與MapReduce集成型:這類數(shù)據(jù)庫(kù)兼顧并行數(shù)據(jù)庫(kù)與MapReduce的長(zhǎng)處,主要分兩種思路:按功能將并行數(shù)據(jù)庫(kù)與MapReduce分別設(shè)計(jì)到相應(yīng)的部位以形成一個(gè)完整系統(tǒng),以及整合并行數(shù)據(jù)庫(kù)和MapReduce這兩套完整的系統(tǒng)以構(gòu)成一個(gè)混合系統(tǒng)。第一種思路典型代表是耶魯大學(xué)提出的HadoopDB[35],它將Hadoop作為調(diào)度層和網(wǎng)絡(luò)溝通層,關(guān)系數(shù)據(jù)庫(kù)作為執(zhí)行引擎,盡可能地將查詢壓入數(shù)據(jù)庫(kù)層處理,Hadoop框架的應(yīng)用可以獲得較好的容錯(cuò)性和對(duì)異構(gòu)環(huán)境的支持,庫(kù)內(nèi)數(shù)據(jù)查詢的使用則可獲得關(guān)系數(shù)據(jù)庫(kù)的高性能優(yōu)勢(shì)。第二種思路的代表是Vertica數(shù)據(jù)庫(kù)[36],它擁有兩套獨(dú)立完整的系統(tǒng),Hadoop負(fù)責(zé)非結(jié)構(gòu)化數(shù)據(jù)和耗時(shí)的批量復(fù)雜數(shù)據(jù)的處理,Vertica負(fù)責(zé)結(jié)構(gòu)化數(shù)據(jù)的處理以及高性能的交互式查詢。當(dāng)然,這些思路仍非理想的方案,例如,HadoopDB喪失了MapReduce較低的預(yù)處理和維護(hù)代價(jià)等,Vertica則依舊存在Vertica擴(kuò)展性問(wèn)題和Hadoop的性能問(wèn)題。因此,在大數(shù)據(jù)面前,數(shù)據(jù)庫(kù)系統(tǒng)的研究還有很長(zhǎng)的路要走,我們?cè)诳偨Y(jié)傳統(tǒng)的數(shù)據(jù)庫(kù)經(jīng)驗(yàn)的同時(shí),還要積極了解新興的數(shù)據(jù)庫(kù)系統(tǒng),才能更好地促進(jìn)適應(yīng)現(xiàn)今大數(shù)據(jù)發(fā)展的優(yōu)良數(shù)據(jù)庫(kù)的面世。

5.大數(shù)據(jù)分析技術(shù)

用于大數(shù)據(jù)集的分析方法很多,包括統(tǒng)計(jì)學(xué)、計(jì)算機(jī)科學(xué)等各個(gè)領(lǐng)域的技術(shù)。本小節(jié)將簡(jiǎn)要介紹其中幾種典型的大數(shù)據(jù)分析技術(shù),當(dāng)然,這些技術(shù)同樣適用于少量數(shù)據(jù)集的分析,但大數(shù)據(jù)集環(huán)境下的應(yīng)用無(wú)疑會(huì)發(fā)揮更加明顯的作用。

(1)A/B測(cè)試:傳統(tǒng)的A/B測(cè)試,是一種把各組變量隨機(jī)分配到特定的單變量處理水平,把一個(gè)或多個(gè)測(cè)試組的表現(xiàn)與控制組相比較,進(jìn)行測(cè)試的方式?,F(xiàn)在的A/B測(cè)試主要用于在Web分析方面,例如通過(guò)對(duì)比統(tǒng)計(jì)新舊網(wǎng)頁(yè)的用戶轉(zhuǎn)化率,來(lái)掌握兩種設(shè)計(jì)的優(yōu)劣等。大數(shù)據(jù)時(shí)代的到來(lái)為大規(guī)模的測(cè)試提供了便利,提高了A/B測(cè)試的準(zhǔn)確性。由于移動(dòng)設(shè)備及技術(shù)的迅猛發(fā)展,移動(dòng)分析也逐漸成為A/B測(cè)試增長(zhǎng)最快的一個(gè)領(lǐng)域。

(2)聚類分析聚類分析:

指將物理或抽象的集合分組成為由類似的對(duì)象組成的多個(gè)類的分析過(guò)程。聚類分析是一種探索性的數(shù)據(jù)挖掘分析方法,不需事先給出劃分的類的具體情況,主要用在商業(yè)、生物學(xué)、因特網(wǎng)等多個(gè)領(lǐng)域中。對(duì)于大數(shù)據(jù)的分析處理,通過(guò)聚類可以簡(jiǎn)化后續(xù)處理過(guò)程,并且可以發(fā)現(xiàn)其中隱藏的某些規(guī)則,充分發(fā)揮了大數(shù)據(jù)的作用。

(3)集成學(xué)習(xí):集成學(xué)習(xí)指的是使用一系列“學(xué)習(xí)器”進(jìn)行學(xué)習(xí),并使用某種規(guī)則把各學(xué)習(xí)結(jié)果進(jìn)行整合從而獲得比單個(gè)“學(xué)習(xí)器”更好的學(xué)習(xí)效果的一種機(jī)器學(xué)習(xí)方法。對(duì)于大數(shù)據(jù)的集成學(xué)習(xí),可以更好地提煉和把握其中的本質(zhì)屬性。

(4)神經(jīng)網(wǎng)絡(luò):神經(jīng)網(wǎng)絡(luò)是一種模仿動(dòng)物神經(jīng)網(wǎng)絡(luò)行為特征,進(jìn)行分布式并行信息處理的算法數(shù)學(xué)模型,它依靠系統(tǒng)的復(fù)雜程度,通過(guò)調(diào)整內(nèi)部大量節(jié)點(diǎn)之間相互連接的關(guān)系,來(lái)達(dá)到處理信息的目的。神經(jīng)網(wǎng)絡(luò)作為一門(mén)新興的交叉學(xué)科,是人類智能研究的重要組成部分,已成為腦科學(xué)、神經(jīng)科學(xué)、認(rèn)知科學(xué)、心理學(xué)等共同關(guān)注的焦點(diǎn)。神經(jīng)網(wǎng)絡(luò)對(duì)于大數(shù)據(jù)的并行處理,無(wú)疑也是一種比較可行的方式。

(5)自然語(yǔ)言處理:自然語(yǔ)言處理是計(jì)算機(jī)科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個(gè)重要方向,它研究能實(shí)現(xiàn)人與計(jì)算機(jī)之間用自然語(yǔ)言進(jìn)行有效通信的各種理論和方法。人與計(jì)算機(jī)的通信交流往往存在很多歧義,如何消除這些歧義,將帶有潛在歧義的自然語(yǔ)言輸入轉(zhuǎn)換成某種無(wú)歧義的計(jì)算機(jī)內(nèi)部表示,是自然語(yǔ)言處理的主要問(wèn)題。大數(shù)據(jù)時(shí)代意味著有大量的知識(shí)和推理來(lái)完成消除歧義現(xiàn)象的可能,這也給自然語(yǔ)言處理帶來(lái)了新的挑戰(zhàn)和機(jī)遇。大數(shù)據(jù)分析技術(shù)還有很多,例如模式識(shí)別、空間分析、遺傳算法等等,并且研究者們還在不斷地尋找新的更有效地分析方法,另外通過(guò)結(jié)合多個(gè)方法來(lái)實(shí)現(xiàn)數(shù)據(jù)分析往往也能達(dá)到非常明顯的效果。

6.大數(shù)據(jù)的可視化

面對(duì)海量的數(shù)據(jù),如何將其清晰明朗地展現(xiàn)給用戶是大數(shù)據(jù)處理所面臨的巨大挑戰(zhàn)。無(wú)論是學(xué)術(shù)界還是工業(yè)界,對(duì)大數(shù)據(jù)進(jìn)行可視化的研究從未停止。通過(guò)將大數(shù)據(jù)圖形化、圖像化以及動(dòng)畫(huà)化等展示出來(lái)的技術(shù)和方法不斷出現(xiàn),本節(jié)將介紹幾種典型的案例。

(1)宇宙星球圖:俄羅斯工程師RuslanEnikeev根據(jù)2011年底的互聯(lián)網(wǎng)數(shù)據(jù),將196個(gè)國(guó)家的35萬(wàn)個(gè)網(wǎng)站數(shù)據(jù)整合起來(lái),并根據(jù)200多萬(wàn)個(gè)網(wǎng)站鏈接將這些“星球”通過(guò)“關(guān)系鏈”聯(lián)系起來(lái)組成了因特網(wǎng)的“宇宙星球圖”[37]。不同顏色代表不同的國(guó)家,每個(gè)“星球”的大小根據(jù)其網(wǎng)站流量來(lái)決定,而“星球”距離遠(yuǎn)近根據(jù)鏈接出現(xiàn)的頻率、強(qiáng)度等決定。類似地,對(duì)于具有復(fù)雜結(jié)構(gòu)的社交網(wǎng)絡(luò),“宇宙星球圖”同樣也十分適用,可以根據(jù)個(gè)人的知名度、人與人之間的聯(lián)系等進(jìn)行繪畫(huà)星球圖。

(2)標(biāo)簽云:“標(biāo)簽云”的設(shè)計(jì)思路主要是,對(duì)于不同的對(duì)象用標(biāo)簽來(lái)表示,標(biāo)簽的排列順序一般依照字典排序,按照熱門(mén)程度確定字體的大小和顏色。例如對(duì)于某個(gè)文檔,出現(xiàn)頻度越高的單詞將會(huì)越大,反之越小。這樣,便可以根據(jù)字母表順序和字體的大小來(lái)對(duì)各單詞的具體情況一目了然。文獻(xiàn)[38]通過(guò)將地圖上的各個(gè)物理位置根據(jù)描述的具體程度用“標(biāo)簽云”表示,使得用戶對(duì)各個(gè)場(chǎng)所的知名程度有個(gè)清晰的認(rèn)識(shí)。

(3)歷史流圖:文獻(xiàn)[39]提出了一種用于可視化文檔編輯歷史的“歷史流圖”,對(duì)于一個(gè)面向大眾的開(kāi)放文檔,編輯和查閱都是自由的,用戶可以隨時(shí)自由的對(duì)文檔進(jìn)行增加或刪除操作。“歷史流圖”中,橫坐標(biāo)軸表示時(shí)間,縱坐標(biāo)軸表示作者,不同作者的不同內(nèi)容對(duì)應(yīng)中間部分不同顏色和長(zhǎng)度,隨著時(shí)間的推移,文檔的內(nèi)容不斷變化,作者也在不斷增加中。通過(guò)對(duì)“歷史流圖”的觀察,很容易看出各人對(duì)該文檔的貢獻(xiàn),當(dāng)然,除了發(fā)現(xiàn)有人對(duì)文檔給出有益的編輯外,也存在著一些破壞文檔、刪除內(nèi)容的人,但總有逐漸被修復(fù)回去的規(guī)律。像維基百科等的詞條注釋文檔,“歷史流圖”的可視化效果十分明顯。關(guān)于大數(shù)據(jù)可視化的方面努力還有很多,不同的“源數(shù)據(jù)”有不同的可視化策略,大數(shù)據(jù)可視化的研究工作仍有待進(jìn)行下去。

大數(shù)據(jù)應(yīng)用所面臨的問(wèn)題

大數(shù)據(jù)時(shí)代面臨的首要問(wèn)題是人力和財(cái)力問(wèn)題,IDC分析稱,大數(shù)據(jù)相關(guān)人才的欠缺將會(huì)成為影響大數(shù)據(jù)市場(chǎng)發(fā)展的一個(gè)重要因素。據(jù)調(diào)查,僅美國(guó)就缺少大約14萬(wàn)到19萬(wàn)的具有深層次數(shù)據(jù)分析技巧的專業(yè)技術(shù)人員以及150萬(wàn)針對(duì)大數(shù)據(jù)的經(jīng)理人。據(jù)阿里巴巴稱,雖然其各類業(yè)務(wù)產(chǎn)生的數(shù)據(jù)為數(shù)據(jù)分析創(chuàng)造了非常好的基礎(chǔ)條件,然而卻招聘不到合適的數(shù)據(jù)科學(xué)家而影響了研發(fā)進(jìn)展。高德納公司預(yù)測(cè),到2015年,全球?qū)⑿略?40萬(wàn)個(gè)與大數(shù)據(jù)相關(guān)的工作崗位,且會(huì)有25%的組織設(shè)立首席數(shù)據(jù)官職位。其中有190萬(wàn)個(gè)工作崗位將在美國(guó),每一個(gè)與大數(shù)據(jù)有關(guān)的IT工作,都將在技術(shù)行業(yè)外部再建3個(gè)工作崗位,這將在美國(guó)再創(chuàng)建將近600萬(wàn)個(gè)工作崗位。數(shù)據(jù)科學(xué)家是復(fù)合型人才,是對(duì)數(shù)學(xué)、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)等多方面知識(shí)的綜合掌控,能對(duì)數(shù)據(jù)做出預(yù)測(cè)性的、有價(jià)值的分析。因此,各國(guó)對(duì)大數(shù)據(jù)人才的培養(yǎng)工作應(yīng)當(dāng)快速有效地著手執(zhí)行。大數(shù)據(jù)的接收和管理也需要大量的基礎(chǔ)設(shè)施和能源,無(wú)論是傳感器還是數(shù)據(jù)中心的服務(wù)器,都需要大量的硬件投入和能源消耗,這也就意味著大數(shù)據(jù)處理的財(cái)力需求極為可觀。如何處理好大數(shù)據(jù)產(chǎn)生的資金投入比例,也成為了各國(guó)和各企業(yè)決策者面臨的難題。另外,大數(shù)據(jù)還將面臨嚴(yán)重的安全和隱私問(wèn)題。首先,隨處可見(jiàn)的傳感器和攝像頭等設(shè)備,會(huì)監(jiān)視并記錄人們位置等信息,通過(guò)海量數(shù)據(jù)的分析,便可輕易了解人們的行蹤規(guī)律,從而可能給人們帶來(lái)生命和財(cái)產(chǎn)安全;其次,“云設(shè)施”的經(jīng)濟(jì)劃算,推動(dòng)了僵尸網(wǎng)絡(luò)的發(fā)展及海量并行處理破解密碼系統(tǒng)的可能性;最后,由于云計(jì)算要求我們放棄自主計(jì)算能力,當(dāng)整個(gè)社會(huì)的信息,包括個(gè)人信息、商業(yè)信息都存儲(chǔ)在巨頭們提供的“云”上時(shí),我們只能寄希望于這些巨頭們都是道德高尚的圣人,否則我們將面臨災(zāi)難性損失。面對(duì)這些安全威脅,學(xué)術(shù)界和工業(yè)界也都紛紛提出自己策略。針對(duì)基于位置服務(wù)的安全性問(wèn)題,文獻(xiàn)[40]提出了一種k-匿名方法,即將自己與周?chē)鷎-1個(gè)用戶組成一個(gè)范圍集合性對(duì)象來(lái)請(qǐng)求位置服務(wù),從而模糊了自己的準(zhǔn)確位置。文獻(xiàn)[41]提出的策略是,搜集周?chē)膋-1個(gè)用戶的位置信息,并以其中的某一個(gè)的名義發(fā)送位置服務(wù)請(qǐng)求,從而也達(dá)到隱藏準(zhǔn)確坐標(biāo)的目的。Roy等人將集中信息流控制和差分隱私保護(hù)等技術(shù)融入云中的數(shù)據(jù)生成與計(jì)算階段,提出了一種隱私保護(hù)系統(tǒng)Airavat[42],防止MapReduce計(jì)算過(guò)程中將非授權(quán)的隱私數(shù)據(jù)泄露出去,并且支持對(duì)計(jì)算結(jié)果的自動(dòng)除密。Mowbray等人在數(shù)據(jù)存儲(chǔ)和使用階段使用一種基于客戶端的隱私管理工具[43],提供以用戶為中心的信任模型,幫助用戶控制自己的敏感信息在云端的存儲(chǔ)和使用。蘋(píng)果最近申請(qǐng)了一項(xiàng)專利,叫做電子分析污染技術(shù),能夠?qū)⒂脩粼谔O(píng)果產(chǎn)品上產(chǎn)生的行為數(shù)據(jù)進(jìn)行污染和混淆,讓其他廠商獲取不到真正的用戶數(shù)據(jù)。這類信息安全保護(hù)的思路是:當(dāng)各種加密措施無(wú)法徹底保護(hù)個(gè)人信息時(shí),不如將大量的垃圾信息、錯(cuò)誤信息充斥在真實(shí)有效的信息之中,讓竊取者不得不耗費(fèi)巨大的成本從中分析。高德納公司分析指出,大數(shù)據(jù)安全是一場(chǎng)必要的斗爭(zhēng),并且大數(shù)據(jù)本身更可用來(lái)提高企業(yè)安全。因?yàn)榻鉀Q安全問(wèn)題的前提是,企業(yè)必須先確定正常、非惡意活動(dòng)是啥樣子的,然后查找與之不同的活動(dòng);從而,發(fā)現(xiàn)惡意活動(dòng),基于大數(shù)據(jù)來(lái)建立一個(gè)基線標(biāo)準(zhǔn)就很好地達(dá)到了這個(gè)目的。

最后,大數(shù)據(jù)的出現(xiàn)會(huì)促使IT相關(guān)行業(yè)的生態(tài)環(huán)境和產(chǎn)業(yè)鏈的變革。傳統(tǒng)的網(wǎng)絡(luò)公司運(yùn)營(yíng)模式是在自己的服務(wù)器上來(lái)管理若干產(chǎn)品和服務(wù),并通過(guò)網(wǎng)絡(luò)連線提供給用戶終端,產(chǎn)生的數(shù)據(jù)歸公司獨(dú)有。然而,在大數(shù)據(jù)時(shí)代,這種模式已經(jīng)難以勝任,服務(wù)公司往往會(huì)選擇租賃第三方的開(kāi)放平臺(tái)來(lái)運(yùn)營(yíng)自己的業(yè)務(wù)。這樣,用戶提供數(shù)據(jù),服務(wù)方處理數(shù)據(jù),但數(shù)據(jù)的實(shí)際存儲(chǔ)地卻在第三方。大數(shù)據(jù)影響的IT產(chǎn)業(yè)鏈大致包括數(shù)據(jù)資源、應(yīng)用軟件、基礎(chǔ)設(shè)施三大部分。數(shù)據(jù)資源方面,各大信息中心、通信運(yùn)營(yíng)商等積極研制和引用大數(shù)據(jù)技術(shù),挖掘大量數(shù)據(jù)分析相關(guān)人才,數(shù)據(jù)資源的收集和開(kāi)發(fā)產(chǎn)業(yè)逐步完善;應(yīng)用軟件方面,隨著高性能云平臺(tái)的出現(xiàn),云應(yīng)用軟件也不斷被開(kāi)發(fā)出來(lái),用戶再也不必?zé)缽?fù)雜的軟件安裝和配置過(guò)程,便可以輕松享受各種網(wǎng)絡(luò)應(yīng)用服務(wù);基礎(chǔ)設(shè)施方面,大數(shù)據(jù)對(duì)硬件的依賴,迫使高性能硬盤(pán)、低能耗服務(wù)器、小巧化個(gè)人終端等行業(yè)的快速發(fā)展。另外,大數(shù)據(jù)技術(shù)的日益成熟也會(huì)促使跨行業(yè)經(jīng)營(yíng)模式的發(fā)展。第三方可以將用戶的各種服務(wù)請(qǐng)求進(jìn)行打包,然后利用大數(shù)據(jù)分析來(lái)尋求最好的服務(wù)商的組合以反饋給用戶。對(duì)服務(wù)提供方來(lái)說(shuō),借助第三方可以更好地推銷(xiāo)自己的服務(wù)。而對(duì)第三方而言,可以獲得大量的分析數(shù)據(jù),其中的利益也是可觀的,真正的實(shí)現(xiàn)了“雙贏”,同時(shí)也使得用戶獲得更好的服務(wù)體驗(yàn)。

結(jié)束語(yǔ)

大數(shù)據(jù)時(shí)代挑戰(zhàn)與機(jī)遇并存,正確處理好大數(shù)據(jù),不僅符合企業(yè)的利益,也給人們?nèi)粘I顜?lái)極大的便利。本文對(duì)大數(shù)據(jù)的基本概念、處理流程以及相關(guān)技術(shù)進(jìn)行了簡(jiǎn)要的探討,并分析了大數(shù)據(jù)可能帶來(lái)的一些問(wèn)題及應(yīng)對(duì)策略。云計(jì)算目前是處理大數(shù)據(jù)的基礎(chǔ)技術(shù),但其在安全和隱私方面的保障工作仍讓不少人感到懷疑,根本原因還是個(gè)人和商業(yè)的信息都存放在遠(yuǎn)端的巨頭們提供的看不見(jiàn)的“云”上。大數(shù)據(jù)時(shí)代已經(jīng)到來(lái),但是,相應(yīng)的技術(shù)體系和社會(huì)保障仍是亟需研究的應(yīng)用課題。(本文圖略)

本文作者:竇萬(wàn)春 單位:南京大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)系 

Top