面向組學大數據的生物信息學研究.pdf_第1頁
已閱讀1頁,還剩122頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、隨著DNA測序、質譜測序等高通量技術的快速發(fā)展,生命科學領域進入了以海量多元組學數據為特征的大數據時代。組學大數據給生命科學研究帶來了前所未有的機遇,在研究基因功能、疾病機制、精準醫(yī)療等方面具有重要意義。面向組學大數據的生物信息學研究,有助于快速有效地挖掘組學大數據中蘊含的生物學知識。大數據具有規(guī)模性、多樣性、高速性等三個特征,給傳統(tǒng)生物信息學帶來了新的挑戰(zhàn)。在數據計算方面,亟需解決中小實驗室對計算資源的彈性需求;在數據分析方面,亟需多

2、組學整合分析體系解決生物學問題。缺乏相應的生物信息學工具是大數據時代生命科學領域面臨的主要瓶頸。本論文主要目的即在于使用數據計算技術和數據分析技術解決組學大數據分析中存在的上述問題。
  在數據計算技術研究方面,本文重點關注云計算技術解決若干蛋白質組大數據問題。亞馬遜網絡服務(AWS,Amazon Web Service)采用現(xiàn)收現(xiàn)付(pay asyou go)的計費模式,提供彈性計算云(EC2,Elastic Compute C

3、loud)和簡單存儲服務(S3,Simple Storage Service)等多種云服務,使得用戶通過互聯(lián)網即可按需獲取計算和存儲資源,可有效解決組學大數據對計算資源的彈性需求。MapReduce框架將任務的處理過程劃分成Map和Reduce兩個階段:Map階段將輸入數據切割成數據分塊,以鍵值對的形式分配到計算節(jié)點上的Map函數并行分析處理,Map函數的輸出同樣以鍵值對的形式保存在各自的計算節(jié)點上;Reduce階段負責將所有的中間結果

4、根據鍵值進行合并,然后生成最終結果。MapReduce框架簡化了分布式計算的編程模型。針對海量串聯(lián)質譜數據帶來的計算復雜度問題,本文使用云計算技術解決鑒定新肽段、單氨基酸變異肽段以及外顯子跳躍剪接肽段等基于串聯(lián)質譜的蛋白質組大數據問題。本文采用串聯(lián)質譜數據結合蛋白質基因組學的方法,構建了全基因組六框翻譯氨基酸的序列數據庫、錯義突變的氨基酸序列數據庫以及外顯子跳躍剪接的氨基酸序列數據庫,使用基于 MapReduce框架的數據庫搜索算法加快

5、基于串聯(lián)質譜的肽段鑒定過程,使用Target-Decoy搜索策略對肽段鑒定結果進行質量控制。本文構建了基于云計算技術的蛋白質組大數據分析和呈現(xiàn)平臺 CAPER3。CAPER3使用 AWS和MapReduce框架實現(xiàn)了數據處理流程的可擴展性。CAPER3具有兩個主要組件,分別是遠程工作包(RWP,Remote Work Package)和本地工作包(LWP,Local Work Package)。RWP部署在AWS上,處理運行在云端的任務

6、。LWP是基于Java的圖形客戶端,具有數據傳輸、任務配置、進度監(jiān)控以及結果展示等功能。LWP使得用戶不需要專業(yè)知識即可在處理數據時獲得 AWS提供的彈性計算能力。CAPER3在鑒定新肽段、已知單氨基酸變異肽段、樣本特異的單氨基酸變異肽段、以及外顯子跳躍剪接肽段等蛋白質組大數據問題上,加快了數據處理速度,并且從蛋白質層次上提供基因或者變異的證據,可為未來研究提供重要線索。CAERP3的源代碼可通過https://github.com/y

7、s-amms/CaperCloud獲取,使用說明詳見http://prodigy.bprc.ac.cn/caper3。
  在數據分析技術研究方面,本文重點關注建立基于生物學網絡的多組學整合分析體系。單一組學數據的分析往往具有局限性。高通量測序技術產生了多平臺的組學數據,揭示了細胞中分子的靜態(tài)和動態(tài)信息,而細胞中不同分子之間相互通信形成了復雜的生物學網絡??紤]不同組學數據之間的關聯(lián),有利于對候選疾病基因進行篩選和排序。驅動基因鑒定

8、問題是生物信息學中一個重要的研究領域。本文首先搜集整理了最新的癌癥相關突變數據集,使用特征分析發(fā)現(xiàn)癌癥相關突變與中性突變在基于PAM250和基于香農信息熵的序列特征上存在顯著差異。在生物學網絡層次,本文提出一種通路算法用于解決驅動基因鑒定問題?;谕返乃惴僭O通路上游的驅動基因經信號轉導過程導致下游轉錄因子過表達,轉錄因子過表達導致其靶基因顯著過表達,進而引發(fā)癌癥;而基于蛋白質功能關聯(lián)網絡(PFIN,Protein functiona

9、l interaction network)的算法假設癌癥驅動基因的網絡鄰居存在更多差異表達基因。本文研發(fā)了基于生物學網絡的癌癥驅動基因鑒定工具 Bionexr。Bionexr是一個 R包,由四個功能模塊組成,分別是“數據下載與解析”、“基因分析”、“網絡分析”和“可視化”。為了方便獲取 TCGA數據,“數據下載與解析”模塊提供TCGA level-3基因體系突變數據和基因表達數據的下載,查看下載進度和斷點續(xù)傳功能。對于基因體系突變數據

10、,“基因分析”模塊計算突變對基因功能的影響。對于基因表達數據,“基因分析”模塊計算基因在腫瘤樣本和正常樣本中的表達倍數變化。“網絡分析”模塊集成了基于KEGG通路和基于PFIN的分析算法。對于基于KEGG通路分析流程的鑒定結果,“可視化”模塊以具有三級層次(分別是突變基因、轉錄因子和靶基因)的有向圖呈現(xiàn);對于基于 PFIN分析流程的鑒定結果,“可視化”模塊以無向圖呈現(xiàn)。四個模塊既相互獨立,又可以串聯(lián)在一起,構成鑒定癌癥驅動基因的數據分析

11、流程?!盎蚍治觥焙汀熬W絡分析”組成的分析流程使得 Bionexr在鑒定癌癥驅動基因時既考察核酸層次的信息,又考察生物學網絡層次的信息。使用Bionexr對TCGA中的多種癌癥,如頭和頸部鱗狀細胞癌、乳腺癌、腎癌和子宮內膜癌,進行數據分析,發(fā)現(xiàn)了潛在的癌癥驅動基因或通路,分析結果提供豐富的信息。Bionexr的源代碼及使用說明可通過https://github.com/ys-amms/bionexr獲取。
  組學大數據的知識挖掘

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論