針對(duì)林業(yè)生物信息學(xué)中的數(shù)據(jù)量大、存儲(chǔ)成本高、分析及利用技術(shù)門檻高等問題,該文提出一種基于林業(yè)大數(shù)據(jù)的生物信息云平臺(tái)的設(shè)計(jì)方案。該平臺(tái)擬整合多個(gè)國(guó)際數(shù)據(jù)庫(kù)中林業(yè)相關(guān)的基因組、轉(zhuǎn)錄組、表達(dá)和功能等常用數(shù)據(jù),構(gòu)建以林業(yè)為主的生物信息學(xué)大數(shù)據(jù)平臺(tái),為林業(yè)研究人員提供綜合的生物信息數(shù)據(jù)服務(wù)(DaaS)。在該大數(shù)據(jù)基礎(chǔ)上,構(gòu)建以現(xiàn)有計(jì)算機(jī)服務(wù)器為基礎(chǔ)的硬件服務(wù)平臺(tái)(IaaS),以網(wǎng)絡(luò)化linux操作系統(tǒng)為基礎(chǔ)的虛擬分析平臺(tái)(PaaS),以及以常用生物信息學(xué)分析軟件為基礎(chǔ)的個(gè)性化可定制軟件服務(wù)平臺(tái)(SaaS),最終為林業(yè)研究人員提供一站式的虛擬易用的生物信息學(xué)云服務(wù)。
《北京林業(yè)大學(xué)學(xué)報(bào)》(社會(huì)科學(xué)版)以馬列主義、毛澤東思想和鄧小平理論為指導(dǎo),堅(jiān)持解放思想,實(shí)事求是的思想路線,宣傳江澤民同志的“三個(gè)代表”重要思想,貫徹理論與實(shí)際相結(jié)合的原則,奉行“雙百”方針,廣泛開展學(xué)術(shù)交流,促進(jìn)社會(huì)科學(xué)的發(fā)展和社會(huì)主義精神文明建設(shè)。
1 概述
近年來,隨著新一代測(cè)序技術(shù)的發(fā)展[1],測(cè)序成本不斷減低,使得高通量測(cè)序逐漸成為生命科學(xué)研究的常規(guī)實(shí)驗(yàn)。眾所周知,高通量測(cè)序產(chǎn)生的數(shù)據(jù)量巨大,單次測(cè)序量常常達(dá)到GB的級(jí)別,而一個(gè)實(shí)驗(yàn)室研究一類物種,從基因組測(cè)序、轉(zhuǎn)錄組測(cè)序、小RNA測(cè)序以及其他個(gè)性化測(cè)序,往往積累的數(shù)據(jù)高達(dá)TB甚至PB級(jí)別。特別是林業(yè)相關(guān)物種,基因組龐大,數(shù)據(jù)量更是呈現(xiàn)指數(shù)級(jí)增長(zhǎng)。以松屬物種為例,2014年完成的火炬送基因組項(xiàng)目顯示,松樹基因組高達(dá)27G,為目前基因組最大的物種之一。而為了實(shí)現(xiàn)分子進(jìn)化及育種研究,一個(gè)課題組往往會(huì)對(duì)不同品種的基因組、轉(zhuǎn)錄組、小RNA等進(jìn)行測(cè)序及比較,再結(jié)合國(guó)際公共數(shù)據(jù)庫(kù)中發(fā)布的十幾種松樹的轉(zhuǎn)錄組、表達(dá)及功能等不同類型的數(shù)據(jù),一個(gè)松屬林業(yè)項(xiàng)目的相關(guān)生物信息數(shù)據(jù)就高達(dá)幾百GB甚至幾個(gè)TB。
面對(duì)如此海量種類繁多的林業(yè)生物信息(簡(jiǎn)稱林業(yè)生物大數(shù)據(jù)),如何進(jìn)行數(shù)據(jù)整合、存儲(chǔ)、分析,將成為生物學(xué)家和計(jì)算機(jī)學(xué)家面臨的重大課題。顯然個(gè)人計(jì)算機(jī)無法滿足存儲(chǔ)大數(shù)據(jù),一般課題組是利用項(xiàng)目經(jīng)費(fèi)購(gòu)買相應(yīng)服務(wù)器或者集群,但由于在研究過程中,為了比較分析,經(jīng)常需要從國(guó)際數(shù)據(jù)庫(kù)下載相關(guān)物種的數(shù)據(jù)信息,這會(huì)導(dǎo)致存儲(chǔ)空間不足。其次是數(shù)據(jù)分析,從linux服務(wù)器的搭建,到常用生物信息學(xué)分析軟件的安裝配置,以及個(gè)性化分析流程的創(chuàng)建,都需要專業(yè)的生物信息分析人員。而目前,僅從項(xiàng)目申請(qǐng)人參與的中國(guó)科學(xué)院、中國(guó)林業(yè)科學(xué)院以及高校的多個(gè)國(guó)家基金來看,硬件服務(wù)器配置不足,服務(wù)器管理及分析人員缺乏等問題嚴(yán)重,大部分項(xiàng)目只能將數(shù)據(jù)分析外包給專門的生物信息學(xué)公司來做,導(dǎo)致分析成本比測(cè)序成本都高。最嚴(yán)重的是生物學(xué)問題和數(shù)據(jù)分析的脫節(jié),將導(dǎo)致生物學(xué)家拿到公司的分析結(jié)果后無法入手。
本研究將基于云計(jì)算平臺(tái),構(gòu)建以林業(yè)生物信息大數(shù)據(jù)為基礎(chǔ)數(shù)據(jù)服務(wù)云(DaaS),提供多個(gè)物種多種類型的林業(yè)生物信息的數(shù)據(jù)服務(wù);構(gòu)建以現(xiàn)有服務(wù)器為基礎(chǔ)的林業(yè)生物信息硬件資源云(IaaS),提供生物信息硬件資源服務(wù);構(gòu)建以linux服務(wù)器及常用開發(fā)環(huán)境為基礎(chǔ)的林業(yè)生物信息分析平臺(tái)云(PaaS),提供虛擬的網(wǎng)絡(luò)化的數(shù)據(jù)分析環(huán)境;構(gòu)建以常用生物信息學(xué)軟件及個(gè)性化分析流程為基礎(chǔ)的林業(yè)生物信息軟件服務(wù)云(SaaS),提供在線的可定制的數(shù)據(jù)分析服務(wù),最后實(shí)現(xiàn)“一站式”的林業(yè)生物信息云服務(wù)平臺(tái)。
2 國(guó)內(nèi)外現(xiàn)狀
云計(jì)算[2-4] 是一種按使用量付費(fèi)的模式,這種模式提供可用的、便捷的、按需的網(wǎng)絡(luò)訪問, 進(jìn)入可配置的計(jì)算資源共享池(資源包括網(wǎng)絡(luò),服務(wù)器,存儲(chǔ),應(yīng)用軟件,服務(wù)),這些資源能夠被快速提供,只需投入很少的管理工作,或與服務(wù)供應(yīng)商進(jìn)行很少的交互。目前,隨著高通量測(cè)序技術(shù)的快速發(fā)展,生物信息學(xué)進(jìn)入組學(xué)時(shí)代,組學(xué)測(cè)序產(chǎn)生了海量的數(shù)據(jù),引領(lǐng)著生物信息學(xué)步入大數(shù)據(jù)時(shí)代。海量生物數(shù)據(jù)的存儲(chǔ)和分析等問題亟待需要利用云的方式來解決[5-7]。
中科院基因組所章張等人[8]分析了現(xiàn)有生物信息學(xué)領(lǐng)域的云計(jì)算服務(wù)(簡(jiǎn)稱:生物信息云),根據(jù)其服務(wù)特點(diǎn)首次提出分類方法:數(shù)據(jù)即服務(wù)(DaaS,Data as a Service)[9-11]、軟件即服務(wù)(SaaS,Software as a Service)、平臺(tái)即服務(wù)(PaaS,Platform as a Service)以及基礎(chǔ)設(shè)施即服務(wù)(IaaS,Infrastructure as a Service)。生物信息云從四個(gè)方面提供了海量生物數(shù)據(jù)的儲(chǔ)存、獲取、分析等相關(guān)需求的服務(wù)。同時(shí),對(duì)云計(jì)算在生物信息學(xué)的應(yīng)用進(jìn)行了展望和討論,提出并分析了以下幾個(gè)亟需解決問題,即生物信息云應(yīng)實(shí)現(xiàn)數(shù)據(jù)和軟件的云儲(chǔ)存,結(jié)合最新的高速傳輸、P2P、數(shù)據(jù)壓縮等技術(shù)支持大數(shù)據(jù)的傳輸,開發(fā)基于云的輕量型編程環(huán)境,以及建立開放的生物信息學(xué)云平臺(tái)。
華大基因作為國(guó)內(nèi)測(cè)序巨頭,2011年在《自然》上闡述了生物云計(jì)算相關(guān)服務(wù)[12],希望為生命科學(xué)研究人員提供全面快捷的生物信息學(xué)云服務(wù)。最終目標(biāo)希望用戶通過互聯(lián)網(wǎng)+遠(yuǎn)程調(diào)用云服務(wù),實(shí)現(xiàn)測(cè)序數(shù)據(jù)的常規(guī)處理,隨時(shí)隨地獲取生物信息分析資源。在國(guó)際上,華大基因并不是唯一一個(gè)開展云計(jì)算服務(wù)的測(cè)序中心,但華大基因?qū)y(cè)序服務(wù)與內(nèi)部云計(jì)算相結(jié)合,突出了其“一站式”服務(wù)的優(yōu)勢(shì)。希望為“組學(xué)”研究領(lǐng)域的科研人員提供快捷、準(zhǔn)確和便于操作的高通量測(cè)序分析服務(wù),從而更好地應(yīng)對(duì)及解決海量生物信息數(shù)據(jù)的存儲(chǔ)、處理、計(jì)算和分析等問題。
由于當(dāng)前基因組測(cè)序數(shù)據(jù)迅猛增加,使得生物產(chǎn)業(yè)對(duì)于計(jì)算與存儲(chǔ)的需求呈現(xiàn)指數(shù)級(jí)的增長(zhǎng)速度(特別是林業(yè)數(shù)據(jù))。這種由于不斷產(chǎn)生的信息洪流而形成的對(duì)存儲(chǔ)能力和計(jì)算能力超常規(guī)的增長(zhǎng),使得生物云計(jì)算[13-15]區(qū)別于其他行業(yè),具有特征和對(duì)技術(shù)的更高要求,也使得越來越多的生物學(xué)家和計(jì)算機(jī)學(xué)家認(rèn)識(shí)到生物信息云計(jì)算平臺(tái)建設(shè)的必要性和迫切性。
3 林業(yè)生物信息云平臺(tái)的設(shè)計(jì)
1) 林業(yè)生物信息數(shù)據(jù)的收集及清洗
林業(yè)生物信息源數(shù)據(jù)主要來源于公開的國(guó)際數(shù)據(jù)庫(kù)。考慮到國(guó)際數(shù)據(jù)庫(kù)更新較快,可以通過網(wǎng)頁(yè)解析技術(shù),利用程序自動(dòng)獲取“林業(yè)”相關(guān)的一級(jí)序列數(shù)據(jù)、二級(jí)基因功能及蛋白數(shù)據(jù)和三級(jí)結(jié)構(gòu)數(shù)據(jù),實(shí)現(xiàn)林業(yè)生物信息云平臺(tái)源數(shù)據(jù)的自動(dòng)獲取及更新。大數(shù)據(jù)計(jì)算環(huán)境和傳統(tǒng)應(yīng)用存在較大的區(qū)別,源數(shù)據(jù)獲取后需要通過適當(dāng)?shù)霓D(zhuǎn)換和清洗,整理成可為大數(shù)據(jù)計(jì)算環(huán)境服務(wù)業(yè)務(wù)數(shù)據(jù)。
2) 林業(yè)生物信息的大數(shù)據(jù)服務(wù)(DaaS)的構(gòu)建
針對(duì)林業(yè)研究中的常見問題,這里把林業(yè)生物信息數(shù)據(jù)按照基因組、轉(zhuǎn)錄組、基因功能、蛋白結(jié)構(gòu)及其他零散數(shù)據(jù)等幾類來存儲(chǔ)[25]。大數(shù)據(jù)存儲(chǔ)技術(shù)需要針對(duì)全類型數(shù)據(jù)存儲(chǔ)和多樣化計(jì)算需求,使用中低端存儲(chǔ)設(shè)備,以分布式文件系統(tǒng)為基礎(chǔ),綜合基于分布式文件系統(tǒng)的各類數(shù)據(jù)庫(kù),實(shí)現(xiàn)高效低成本的大數(shù)據(jù)存儲(chǔ)。技術(shù)上使用Hadoop[16]大數(shù)據(jù)集成平臺(tái)Cloudera來構(gòu)建,數(shù)據(jù)庫(kù)采用Oracle。大數(shù)據(jù)平臺(tái)主要涉及數(shù)據(jù)管理(HDFS)、數(shù)據(jù)操作系統(tǒng)(YARN)、數(shù)據(jù)訪問模塊集、數(shù)據(jù)治理與集成模塊集、安全模塊等。
3) 林業(yè)生物信息硬件資源服務(wù)(IaaS) 的構(gòu)建
用戶租用云計(jì)算上的虛擬主機(jī)可以自己控制計(jì)算、存儲(chǔ)等硬件設(shè)備,建立需要的計(jì)算環(huán)境。并且大量的生物信息學(xué)工具可以打包為虛擬鏡像用于租用的云計(jì)算的虛擬主機(jī)上,可以很方便的進(jìn)行多種數(shù)據(jù)分析。如CloVR[24]提供的一個(gè)包含預(yù)配置和自動(dòng)的生物信息學(xué)流程的虛擬主機(jī),可以運(yùn)行在本地的計(jì)算機(jī)上也可以運(yùn)行在云計(jì)算平臺(tái)上。此虛擬機(jī)以Ubuntu和BioLinu為基礎(chǔ)[23],安裝了Grid Engine和Hadoop作為作業(yè)調(diào)度。
這樣就為用戶提供了一個(gè)生物信息學(xué)分析的硬件虛擬環(huán)境及軟件開發(fā)環(huán)境,用戶可以使用自己的pc作為客戶端,連接生物信息云平臺(tái)的虛擬機(jī),使用虛擬機(jī)強(qiáng)大的計(jì)算資源及內(nèi)存(很多生物信息學(xué)分析需要大內(nèi)存資源)。
4) 林業(yè)生物信息分析環(huán)境服務(wù)(PaaS)的構(gòu)建
生物信息分析環(huán)境應(yīng)該包含生物信息開發(fā)語(yǔ)言環(huán)境及常用的生物信息學(xué)軟件支持庫(kù)。目前生物信息學(xué)中常用的開發(fā)語(yǔ)言有C\C,、JAVA、perl、python等,并且這些語(yǔ)言大都有自己配套的生物信息學(xué)開發(fā)庫(kù),例如Bioperl、Biojava等。為了后期的統(tǒng)計(jì)分析方便,可以把R語(yǔ)言的生物信息學(xué)庫(kù)Bioconductor安裝到云平臺(tái)上。常用的生物信息學(xué)軟件支持庫(kù)有Galaxy Cloudman和Eoulsan[22]等。Galaxy整合了一系列的簡(jiǎn)單易用的工具,提供一個(gè)簡(jiǎn)易的網(wǎng)頁(yè)用來分析數(shù)據(jù)。Galaxy Cloudman把Galaxy的軟件工具打包成一個(gè)鏡像,可以在AWS(Amazon Web Service)上應(yīng)用[17]。用戶可以將其他安裝在Galaxy平臺(tái)上的軟件安裝到自己的云計(jì)算平臺(tái)上,甚至可以在Galaxy Cloudman上定義插件。通過添加額外的工具,可以擴(kuò)展默認(rèn)函數(shù)并測(cè)試和使用。從這個(gè)意義上說,Galaxy Cloudman可以看做PaaS。 Eoulsan整合了很多下一代基因數(shù)據(jù)分析工具,如BWA,Bowtie,SOAP2,GSNAP,edgeR,和DEdeq于一個(gè)框架內(nèi),同時(shí),它也支持用戶自己開發(fā)的插件用于數(shù)據(jù)分析。
5) 林業(yè)生物信息分析軟件服務(wù)(SaaS)的構(gòu)建
目前大多數(shù)的生物信息學(xué)分析軟件都是開源的或者需要自主開發(fā)。很多傳統(tǒng)的生物信息學(xué)工具如BLAST、UCSC Genome Browser僅用瀏覽器就可以登錄到服務(wù)器使用相應(yīng)的服務(wù),它們也可以稱為SaaS。這些服務(wù)一般由軟件工具的開發(fā)者提供,伸縮性很差,需要進(jìn)行進(jìn)一步的并行及分布式計(jì)算的完善。序列匹配是指當(dāng)前生物信息學(xué)分析中的重要應(yīng)用,特別是高通量測(cè)序產(chǎn)生的大量短序列片段,需要匹配到基因或基因組上。隨著云計(jì)算及大數(shù)據(jù)的發(fā)展,為了提高分析效率,越來越多的軟件都向并行、分布式計(jì)算發(fā)展。CloudAligner[18],CloudBurst[19],SEAL[20]和Crossbow都是應(yīng)用于云計(jì)算基于MapReduce的軟件[21],可以匹配高通量的測(cè)序大數(shù)據(jù)。
常用的分布式計(jì)算軟件配置在云平臺(tái)的虛擬機(jī)中,用戶登錄虛擬機(jī)后除了享受硬件服務(wù)還可以使用進(jìn)行常規(guī)分析。特別是針對(duì)當(dāng)前的二代測(cè)序,安裝配置一體化的組學(xué)分析流程,包含流行的基因組測(cè)序分析、轉(zhuǎn)錄組測(cè)序分析、宏基因分析等,使用戶在云平臺(tái)中不用關(guān)系硬軟件技術(shù),能夠分析自己的數(shù)據(jù),并支持可定制性分析。總之為用戶提供一個(gè)方便易用的分析及統(tǒng)計(jì)環(huán)境[26]。
4 結(jié)束語(yǔ)
生物信息云平臺(tái)的建設(shè)由于涉及的物種多、數(shù)據(jù)類型多、數(shù)據(jù)分析多樣化等問題,硬件成本高、工程量巨大,不是短期能夠見效的。但針對(duì)某一個(gè)行業(yè)的生物信息云平臺(tái)的建設(shè),涉及的數(shù)據(jù)量及工程量都相對(duì)較小,并且云平臺(tái)的建設(shè)較容易看到成效。本文針對(duì)林業(yè)生物信息大數(shù)據(jù),建立包含數(shù)據(jù)服務(wù)云(DaaS)、硬件資源云(IaaS)、分析平臺(tái)云(PaaS)和軟件服務(wù)云(SaaS)的專用林業(yè)生物信息云平臺(tái),為林業(yè)相關(guān)生物學(xué)研究提供“一站式”的生物信息學(xué)數(shù)據(jù)服務(wù)、平臺(tái)服務(wù)和分析服務(wù),使得研究人員能夠?qū)W⒂谧约旱牧謱W(xué)問題,不用受限于計(jì)算機(jī)硬件平臺(tái)和軟件分析的技術(shù)瓶頸。林業(yè)生物信息云平臺(tái)的建立,將可預(yù)見性在數(shù)據(jù)共享、硬件平臺(tái)和軟件分析方面的方便研究人員,使其直面自己關(guān)心的科研問題,極大的提高工作效率。
參考文獻(xiàn):
[1] 張文力.高通量測(cè)序數(shù)據(jù)分析現(xiàn)狀與挑戰(zhàn)[J]. 集成技術(shù),2012(3):20-24.
[2] 趙為民.云計(jì)算難掩十大優(yōu)勢(shì),2012年將遍地開花[J]. 網(wǎng)絡(luò)與信息,2012,26(3):14-15.
[3] 葉惠.云計(jì)算:讓服務(wù)觸手可及[J]. 通訊世界,2009(7):34-35.
[4] 趙為民.云計(jì)算何時(shí)遍地開花?十大難題亟待解決[J]. 網(wǎng)絡(luò)與信息,2012,26(3):44-45.
[5] 郝彤,馬紅武,趙學(xué)明.云計(jì)算在生物技術(shù)領(lǐng)域的應(yīng)用[J].數(shù)學(xué)的實(shí)踐與認(rèn)識(shí),2012,24(17):117-123.
[6] 楊帥,胡宗倩,伯曉晨,等.云計(jì)算在生物醫(yī)學(xué)中的應(yīng)用[J].中國(guó)科學(xué):生命科學(xué),2013,43(7):569-578.
[7] 崔振.云計(jì)算在高通量測(cè)序數(shù)據(jù)分析中的應(yīng)用[J].基因組學(xué)與應(yīng)用生物學(xué),2014,33(2):467-471.
[8] Dai L, Gao X, Guo Y, Xiao J, Zhang Z. Bioinformatics clouds for big data manipulation. Biology Direct. 2012;7(1).
論文指導(dǎo) >
SCI期刊推薦 >
論文常見問題 >
SCI常見問題 >