

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、2024/3/21,1,生物信息學Bioinformatics,2024/3/21,2,理論課講授內容第一講 生物信息學概論第二講 醫(yī)學信息學基礎及信息學基本技術第三講 生物信息中心、核酸和蛋白質序列 資源第四講 生物信息重要數據庫,2024/3/21,3,第五講 序列比對第六講 生物醫(yī)學文獻及PCR第七講 序列特征分析第八講 生物信息學與基因芯片,2024/3/21,4,生物信息學概論,2024/3/21
2、,5,內容,生物信息學概況生物信息學簡介 生物信息學、生物學基礎 歷史、內容、任務、技術和方法 發(fā)展趨勢及研究熱點,生物信息學簡介,2024/3/21,7,三大自然科學之謎,宇宙的起源生命的誕生思維的奧秘,2024/3/21,8,2024/3/21,9,What is bioinformatics? from http://en.wikiped
3、ia.org/wiki/Bioinformatics,Bioinformatics and computational biology involve the use of techniques including applied mathematics, informatics, statistics, computer science, artificial intelligence, chemistry, and biochemi
4、stry to solve biological problems usually on the molecular level. Research in computational biology often overlaps with systems biology. Major research efforts in the field include sequence alignment, gene finding, genom
5、e assembly, protein structure alignment, protein structure prediction, prediction of gene expression and protein-protein interactions, and the modeling of evolution.,2024/3/21,10,生物信息學,說文解字:生物 + 信息 + 學 (bioinformatics)
6、 biology + information + theory廣義 應用信息科學的方法和技術,研究生物體系和生物過程中信息的存貯、信息的內涵和信息的傳遞,研究和分析生物體細胞、組織、器官的生理、病理、藥理過程中的各種生物信息,或者也可以說成是生命科學中的信息科學。狹義 應用信息科學的理論、方法和技術,管理、分析和利用生物分子數據。,2024/3/21,11,計算生物學/生物信息學:三種科學文化
7、的融合,2024/3/21,12,A marriage of …,,Biology,Informationtechnology,2024/3/21,13,生物信息學(Bioinformatics),美國人類基因組計劃實施五年后的總結報告中,對生物信息學作了以下定義: 生物信息學是一門交叉科學,它包含了生物信息的獲取、處理、存儲、分發(fā)、分析和解釋等在內的所有方面,綜合運用數學、計算機科學和生物學的各種工具,來闡明和理解大量數據所
8、包含的生物學意義。,2024/3/21,15,生物信息學的歷史,從人類基因組計劃(HGP)說起,2024/3/21,16,曼哈頓原子彈計劃,阿波羅登月計劃,人類基因組計劃,(Manhattan Project) 美國陸軍部于1942年6月開始實施的利用核裂變反應來研制原子彈的計劃,阿波羅計劃(Projec Apollo),是美國從1961年到1972年從事的一系列載人登月飛行任務,2024/3/21,17,60年代初,美國總統(tǒng)Kenne
9、dy提出兩個科學計劃:?登月計劃?攻克腫瘤計劃 ? 人類遺傳信息的復雜性,人類基因組計劃(HGP,Human Genome Project)目標:整體上破解人類遺傳信息的奧秘,,為什么提出HGP?,2024/3/21,18,生命活動三要素:物質、能量、信息,DNA: 遺傳物質(遺傳信息的載體)? 雙螺旋結構 A, C, G, T四種基本字符的復雜文本 基因(Gene):具有遺傳效應
10、的DNA分子片段,DNA、基因、基因組,2024/3/21,19,基因組(Genome):包含細胞或生物體全套的遺傳信息的全部 遺傳物質。原核生物(細菌、病毒等) 真核生物(真菌、植物、動物等),人類基因組: 3.2×109 bp,2024/3/21,20,盡管比之于人類登月,HGP的投入資金要少得多,但HGP對人
11、類生活的影響要更為深遠。因為隨著這個計劃的完成,DNA分子中編碼的遺傳信息將對人類存在的化學基礎作出最終的回答。這將不僅幫助我們理解我們是如何作為健康的人發(fā)揮正常功能的,而且也將在化學水平上解釋遺傳因子在各種疾病,如癌癥、早老癡呆癥、精神分裂癥等一些嚴重危害人類健康的疾病中的作用。畢竟對人類自身更深入的了解是人類活動中最重要的一個部分?!猈atson ,1990,《Science》,2024/3/21,21,HGP的歷史回顧,19
12、84.12 猶他州阿爾塔組織會議,初步研討測定人類整個基 因組DNA序列的意義1985 Dulbecco在《Science》撰文 “腫瘤研究的轉折點:人 類基因組的測序” 美國能源部(DOE)提出“人類基因組計劃”草案1987 美國能源部和國家衛(wèi)生研究院(NIH)聯合為“人類
13、 基因組計劃”下撥啟動經費約550萬美元1989 美國成立“國家人類基因組研究中心Watson擔任 第一任主任1990.10 經美國國會批準,人類基因組計劃正式啟動,2024/3/21,22,第一個自由生物體流感嗜血菌(H. inf)的全基因組測序完成1996 完成人類基因組計劃的遺傳作圖 啟動模式生物基因組計劃,H.inf全基因組,
14、Saccharomyces cerevisiae釀酒酵母,Caenorhabditis elegans秀麗線蟲,2024/3/21,23,1997 大腸桿菌(E.coli)全基因組測序完成1998 完成人類基因組計劃的物理作圖 開始人類基因組的大規(guī)模測序 Celera公司加入,與公共領域競爭 啟動水稻基因組計劃1999.7 第5屆國際公共領域人類基因組測序會議,加快測序速度,大
15、腸桿菌及其全基因組,水稻基因組計劃,2024/3/21,24,2000 Celera公司宣布完成果蠅基因組測序 國際公共領域宣布完成第一個植物基因組——擬南芥全基 因組的測序工作,Drosophila melanogaster果蠅,Arabidopsis thaliana擬南芥,2024/3/21,25,2001年2月15日《Nature》封面
16、,2001年2月16日《Science》封面,2000.6.26 公共領域和Celera公司同時宣布完成人類基因組工作草圖2001.2.15 《Nature》刊文發(fā)表國際公共領域結果2001.2.16 《Science》刊文發(fā)表Celera公司及其合作者結果,2024/3/21,26,1999年12月1日,22號染色體測序完成 2006年5月18日, 美國和英國科學家在英國《自然》雜志網絡版上發(fā)表了人類最后一個染色體——1號
17、染色體的基因測序 全部人類基因組約有2.91Gbp,約有39000多個基因; 1號染色體包含基因數量最多,達3141個,是平均水平的兩倍,共有超過2.23億個堿基對; 19號染色體是含基因最豐富的染色體,而13號染色體含基因量最少,2024/3/21,27,HGP帶來的科學挑戰(zhàn),隨著實驗數據和可利用信息急劇增加,信息的管理和分析成為HGP的一項重要的工作,發(fā)現生物學規(guī)律,解讀生物遺傳密碼,認識生命的本質,研究基因組數據之間的關系
18、,分析現有的基因組數據,利用數學模型和計算技術,,,,,,2024/3/21,28,各學科參與、協(xié)作:生命科學、數學、物理學、化學、計算機 科學、材料科學以及倫理、法律等社會科學……? 首要科學問題 如何找到記載在基因組DNA一維結構上控制生命時間、空間 的調控信息的編碼方式和調節(jié)規(guī)律。 應用數學、復雜系統(tǒng)理論、信息論、非線性科學…… 催生?生物信息學、計算生物
19、學? 芯片技術 交叉性技術領域:物理學、微電子信息技術、生化技術、信 息技術、自動化、材料科學……? 結構生物學 前沿領域之一:生物物理學、生物化學、晶體學、波譜學、 光譜學以及X射線晶體衍射技術、核磁共振技術……,2024/3/21,29,生物學數據的收集、存儲、管理與提供 基因組序列信息的提取和分析 功能基因組相關信息分析 生物大分子結構模擬和藥物設計
20、 生物信息分析的技術與方法研究 應用與發(fā)展研究,生物信息學的主要研究內容,2024/3/21,30,基因組數據庫,,蛋白質序列數據庫,蛋白質結構數據庫,,DDBJ,,EMBL,GenBank,SWISS-PROT,PDB,,PIR,生物分子數據的收集與管理,2024/3/21,31,數據庫搜索及序列比較,搜索同源序列在一定程度上就是通過序列比較尋找相似序列 序列比較的一個基本操作就是比對(Alignment),即將兩個
21、序列的各個字符(代表核苷酸或者氨基酸殘基)按照對應等同或者置換關系進行對比排列,其結果是兩個序列共有的排列順序,這是序列相似程度的一種定性描述多重序列比對研究的是多個序列的共性。序列的多重比對可用來搜索基因組序列的功能區(qū)域,也可用于研究一組蛋白質之間的進化關系。,2024/3/21,32,基因組序列分析,遺傳語言分析——天書 基因組結構分析基因識別基因功能注釋基因調控信息分析基因組比較,,CTCAGATTGAACGCTGGc
22、GGCAGGCCTAACACATGCAAGTCGAACGGTAACAGGAAGCAGCTTGCTGCTTCGCTGACGAGTGGCGGACGGGTGAGTAATGTCTGGGAAACTGCCTGATGGAGGGGGATAACTACTGGAAACGGTAGCTAATACCGCATAACGTCGCAAGACCAAAGAGGGGGACCTTCGGGCCTCTTGCCATCGGATGTGCCCAGATGGGATTAGCTAGTAGGTGGGG
23、TAACGGCTCACCTAGGCGACGATCCCTAGCTGGTCTGAGAGGATGACCACCCACACTGGAACTGAGACGACGGTCCAGACTCCTACGGGAGGCAGCAGTGGGGAATATTGCACAATGGGCGCAAGCCTGATGCAGCCATGCCGCGTGTATGAAGAAGGCCTTCGGGTTGTAAAGTACTTTCAGCGGGGAGGAAGGTGTTGAGGTTAATAACCTCATCGAT
24、TGACGTTACCCGCAGAAGAAGCACCGGCTAACTCCGTGCCAGCAGCCGCGGTAATACGGAGGGTGCAAGCGTTAATCGGAATTACTGGGCGTAAAGCGCACGCAGGCGGTCTGTCAAGTCGGATGTGAAATCCCCGGGCTCAACCTGGGAACTGCATTCGAAACTGGCAGGCTAGAGTCTTGTAGAGGGGGGTAGAATTCCAGGTGTAGCGGTGAAATGC
25、GTAGAGATCTGGAGGAATACCGGTGGCGAAGGCGGCCCCCTGGACAAAGACTGACGCTCAGGTGCGAAAGCGTGGGGAGCAAACAGGATTAGATACCCTGGTAGTCCACGCCGTAAACGATGTCGACTTGGAGGTTGTGCCCTTGAGGCGTGGCTTCCGGAGCTAACGCGTTAAGTCGACCGCCTGGGGAGTACGGCCGCAAGGTTAAAACTCAAATGAA
26、TTGACGGGGGCCcGCACAAGCGGTGGAGCATGTGGTTTAATTCGATGCAACGCGAAGAACCTTACCTACTCTTGACATCCAGAGAACTTTCCAGAGATGGATTGGTGCCTTCGGGAACTCTGAGACAGGTGCTGCATGGCTGTCGTCAGCTCGTGTTGTGAAATGTTGGGTTAAGTCCCGCAACGAGCGCAACCCTTATCCTTTGTTGCCAGCGGTCAGG
27、CCGGGAACTCAAAGGAGACTGCCAGTGATAAACTGGAGGAAGGTGGGGATGACGTCAAGTCATCATGGCCCTTACGAGTAGGGCTACACACGTGCTACAATGGCGCATACAAAGAGAAGCGACCTCGCGAGAGCAAGCGGACCTCATAAAGTGCGTCGTAGTCCGGATTGGAGTCTGCAACTCGACTCCATGAAGTCGGAATCGCTAGTAATCGTGGATC
28、AGAATGCCACGGTGAATACGTTCCCGGGCCTTGTA,,2024/3/21,34,基因表達數據的分析與處理,基因表達數據分析是目前生物信息學研究的熱 點和重點 目前對基因表達數據的處理主要是進行聚類分 析,將表達模式相似的基因聚為一類,在此基 礎上尋找相關基因,分析基因的功能 所用方法主要有:相關分析方法、模式識別技術中的層次式聚類方法、人工智能中的自組織映射神經網絡、主元分析方法 等表
29、達數據缺點:僅反映mRNA豐度,噪聲,…,2024/3/21,35,蛋白質結構預測,蛋白質的生物功能由蛋白質的結構所決定,蛋白質結構預測成為了解蛋白質功能的重要途徑蛋白質結構預測分為:二級結構預測空間結構預測,蛋白質折疊,2024/3/21,36,二級結構預測,在一定程度上二級結構的預測可以歸結為模式識別問題 在二級結構預測方面主要方法有:立體化學方法圖論方法統(tǒng)計方法最鄰近決策方法基于規(guī)則的專家系統(tǒng)方法分子動力學方
30、法人工神經網絡方法 預測準確率超過70%的第一個軟件是基于神經網絡的PHD系統(tǒng),2024/3/21,37,空間結構預測,在空間結構預測方面,比較成功的理論方法是同源模型法 該方法的依據是:相似序列的蛋白質傾向于折疊成相似的三維空間結構 運用同源模型方法可以完成所有蛋白質10-30%的空間結構預測工作,發(fā)展趨勢及研究熱點,2024/3/21,39,系統(tǒng)生物學(Systems Biology): 由分析為主走向分析與綜合并舉
31、的系統(tǒng)方法 微觀?還原論 整體?系統(tǒng)論統(tǒng)一生物學(General Biology): 探索生命活動本質,產生統(tǒng)一的生命觀和統(tǒng)一的生物學實驗、理論、計算生物學: (Experimental, Theoretical, Computational Biology ) 生命科學與數、理、化、計算機等學科的大綜合、大交叉生物技術的產業(yè)化(Biotechnology): 基礎研究轉化為生產
32、力 生物工程技術?農、林、醫(yī)藥,現代生命科學發(fā)展趨勢,2024/3/21,40,生物大分子的結構與功能研究基因組與細胞的研究基因組比較研究關于遺傳、發(fā)育、分化、進化的綜合理論研究腦科學和神經科學研究行為科學研究生態(tài)學研究人體功能研究,研究手段:實驗、理論、計算相結合,現代生命科學發(fā)展熱點,2024/3/21,41,生物信息學當前的主要任務,當今生物信息學界的大部分人都把注意力集中在基因組、蛋白質組、蛋白
33、質結構以及與之相結合的藥物設計上,隨蛋白組學、代謝組學進一步的發(fā)展,將在整體水平進行。,2024/3/21,42,基因組,新基因的發(fā)現,通過計算分析從EST(Expressed Sequence Tags)序列庫中拼接出完整的新基因編碼區(qū),也就是通俗所說的“電子克隆”;通過計算分析從基因組DNA序列中確定新基因編碼區(qū),經過多年的積累,已經形成許多分析方法,如根據編碼區(qū)具有的獨特序列特征、根據編碼區(qū)與非編碼區(qū)在堿基組成上的差異、根據高維分
34、布的統(tǒng)計方法、根據神經網絡方法、根據分形方法和根據密碼學方法等。,2024/3/21,43,非蛋白編碼區(qū)生物學意義的分析,2024/3/21,44,非蛋白編碼區(qū)約占人類基因組的95%,其生物學意義目前尚不是很清楚,但從演化觀點來看,其中必然蘊含著重要的生物學功能,由于它們并不編碼蛋白,一般認為,它們的生物學功能可能體現在對基因表達的時空調控上。,2024/3/21,45,研究非蛋白編碼區(qū)生物學意義的兩種策略: 一種是基于已有的已經為實
35、驗證實的所有功能已知的DNA元件的序列特征,預測非蛋白編碼區(qū)中可能含有的功能已知的DNA元件,從而預測其可能的生物學功能,并通過實驗進行驗證; 另一種則是通過數理理論直接探索非蛋白編碼區(qū)的新的未知的序列特征,并從理論上預測其可能的信息含義,最后同樣通過實驗驗證。,2024/3/21,46,基因組整體功能及其調節(jié)網絡的系統(tǒng)把握,把握生命的本質,僅僅掌握基因組中部分基因的表達調控是遠遠不夠的,因為生命現象是基因組中所有功能單元相互作用共同
36、制造出來的。基因芯片技術由于可以監(jiān)測基因組在各種時間斷面上的整體轉錄表達狀況,因此成為該領域中一項非常重要和關鍵的實驗技術,對該技術所產生的大量實驗數據進行高效分析,從中獲得基因組運轉以及調控的整體系統(tǒng)的機制或者是網絡機制,便成了生物信息學在該領域中首先要解決的問題。,2024/3/21,47,基因組演化與物種演化 (生命之樹),2024/3/21,48,盡管已經在分子演化方面取得了許多重要的成就,但僅僅依靠某些基因或者分子的演化現象,
37、就想闡明物種整體的演化歷史似乎不太可靠。例如,智人與黑猩猩之間有98%-99%的結構基因和蛋白質是相同的,然而表型上卻具有如此巨大的差異,這就不能不使我們聯想到形形色色千差萬別的建筑樓群,它們的外觀如此不同,但基礎的部件組成卻是幾乎一樣的,差別就在于這些基礎部件的組織方式不同,這就提示我們基因組整體組織方式而不僅僅是個別基因在研究物種演化歷史中的重要作用。由于基因組是物種所有遺傳信息的儲藏庫,從根本上決定著物種個體的發(fā)育和生理,因此,從
38、基因組整體結構組織和整體功能調節(jié)網絡方面,結合相應的生理表征現象,進行基因組整體的演化研究,將是揭示物種真實演化歷史的最佳途徑。,2024/3/21,49,基因組對生命體的整體控制必須通過它所表達的全部蛋白質來執(zhí)行,由于基因芯片技術只能反映從基因組到RNA的轉錄水平上的表達情況,由于從RNA到蛋白質還有許多中間環(huán)節(jié)的影響,因此僅憑基因芯片技術我們還不能最終掌握生物功能具體執(zhí)行者——蛋白質的整體表達狀況; 近幾年在發(fā)展基因芯片的同
39、時,人們也發(fā)展了一套研究基因組所有蛋白質產物表達情況——蛋白質組研究技術,從技術上來講包括二維凝膠電泳技術和質譜測序技術。通過二維凝膠電泳技術可以獲得某一時間截面上蛋白質組的表達情況,通過質譜測序技術就可以得到所有這些蛋白質的序列組成。這些都是技術實現問題,最重要的就是如何運用生物信息學理論方法去分析所得到的巨量數據,從中還原出生命運轉和調控的整體系統(tǒng)的分子機制。,蛋白質組,2024/3/21,50,基因組和蛋白質組研究的迅猛發(fā)展,使許
40、多新蛋白序列涌現出來,然而要想了解它們的功能,只有氨基酸序列是遠遠不夠的,因為蛋白質的功能是通過其三維高級結構來執(zhí)行的,而且蛋白質三維結構也不一定是靜態(tài)的,在行使功能的過程中其結構也會相應的有所改變。因此,得到這些新蛋白的完整、精確和動態(tài)的三維結構就成為擺在我們面前的緊迫任務。目前除了通過諸如X射線晶體結構分析、多維核磁共振(NMR)波譜分析和電子顯微鏡二維晶體三維重構(電子晶體學,EC)等物理方法得到蛋白質三維結構,蛋白質結構,202
41、4/3/21,51,另外一種廣泛使用的方法就是通過計算機輔助預測的方法,目前,一般認為蛋白質的折疊類型只有數百到數千種,遠遠小于蛋白質所具有的自由度數目,而且蛋白質的折疊類型與其氨基酸序列具有相關性,這樣就有可能直接從蛋白質的氨基酸序列通過計算機輔助方法預測出蛋白質的三維結構,2024/3/21,52,,,,,新藥設計,2024/3/21,53,隨著結構生物學的發(fā)展,相當數量的蛋白質以及一些核酸、多糖的三維結構獲得精確測定,基于生物大分
42、子結構知識的藥物設計成為當前的熱點。生物信息學的研究不僅可提供生物大分子空間結構的信息,還能提供電子結構的信息,如能級、表面電荷分布、分子軌道相互作用等以及動力學行為的信息,如生物化學反應中的能量變化、電荷轉移、構象變化等。理論模擬還可研究包括生物分子及其周圍環(huán)境的復雜體系和生物分子的量子效應。,結構 – 功能 – 行為,2024/3/21,54,生物信息學的任務遠不止于此。在以上工作的基礎上,最重要的是如何運用數理理論成果對生物體進行
43、完整系統(tǒng)的數理模型描述,使得人類能夠從一個更加明確的角度和一個更加易于操作的途徑來認識和控制自身以及所有其他的生命體,2024/3/21,55,生物信息學不僅僅是一門科學學科, 它更是一種重要的研究開發(fā)工具。 從科學的角度來講,它是一門研究生物和生物相關系統(tǒng)中信息內容物和信息流向的綜合系統(tǒng)科學,只有通過生物信息學的計算處理,我們才能從眾多分散的生物學觀測數據中獲得對生命運行機制的詳細和系統(tǒng)的理解。,生物信息學不僅僅是一
44、門科學學科, 它更是一種重要的研究開發(fā)工具。 從工具的角度來講,它是今后幾乎進行所有生物(醫(yī)藥)研究開發(fā)所必需的舵手和動力機,只有基于生物信息學通過對大量已有數據資料的分析處理所提供的理論指導和分析,我們才能選擇正確的研發(fā)方向,同樣,只有選擇正確的生物信息學分析方法和手段,我們才能正確處理和評價新的觀測數據并得到準確的結論。,2024/3/21,57,生物信息學的研究意義,生物信息學是21世紀生物學的核心,認識生物本質了解生
45、物分子信息的組織和結構,破譯基因組信息,闡明生物信息之間的關系改變生物學的研究方式 改變傳統(tǒng)研究方式,引進現代信息學方法在醫(yī)學上的重要意義為疾病的診斷和治療提供依據為設計新藥提供依據,2024/3/21,58,時刻銘記 實驗永遠起著決定作用 計算/理論生物學的發(fā)展離不開實驗生物學的貢獻 實驗生物學日益依賴計算/理論生物學的指導 重視基礎研究,原創(chuàng)!,21世紀生命科學,理論,計算,實驗,數學與物理科學,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
評論
0/150
提交評論