國家高速網路與計算中心
  國網中心     | 生物化學資料庫服務    
 
 
回首頁    | 好站連結    | SiteMap

 三維影像國際合作

 2005識之精微

 會議展示及參訪

 好站連結
最新消息
NGS分析平台
Olfactory DB
生物知識庫
知識庫服務說明
生技新知 
生物計算服務系統
生物計算服務說明   
生物序列分析     
軟體與資料庫 
結構生物軟體 
生醫影像軟體 
關於我們
認識生物計算小組
台灣生物資訊學會
聯絡我們
 
生物資訊學於生物科技中所扮演的角色
    (9600 reads)   _FPRINT
生物資訊學於生物科技中所扮演的角色
─當物理碰上生物

國科會國家高速電腦中心
謝昌煥


由於生物科技的進步,使得生物資料庫的資料量暴增;同時期電腦的計算能力、硬碟容量也有巨大的進步。使得生物資訊學、計算生物學在這個時候適時的誕生了,也引出了許多的研究題目,例如:資料庫的建立與整合、序列的比對與分析、基因組全序列的定序與基因組地圖建構、蛋白質結構和功能的分析與預測、分子模型的建立與新藥的設計、演化樹的建立等等,吸引了很多科學家投入相關研究的行列。
而在資料庫的資料量愈來愈多時,資料搜尋的技術將會成為實驗技術的一部份,因此如何快速取得有用的資料?如何善用資料?如何整合資料創造出新的知識?將成為接下來所需要面臨的重要課題,在即將進入生物科技世代的廿一世紀,企盼國內能有更多的研究工作者對於生物資訊學的研究課題有參與研究的興趣。


一、前言
美國國家衛生研究院(NIH)於1989年成立了人類基因組研究中心,邀請華森(James D. Watson)教授 ,DNA雙螺旋結構的發現者之一,為第一任中心主任,開始執行分子生物學界的超大型計劃〞人類基因組解讀計劃(Human Genome Project)〞[1]。這項媲美人類"登月計劃"的壯舉,預計要在2005年以前,目前修正為2003年,將人類的30億個DNA的全序列決定出來,到時候我們將知道執行人體生化功能的十萬個基因的序列。在這個計劃的推動下,生物分子序列資料庫的成長極為快速。另外在結構生物學方面,X-ray和核磁共振這些決定生物巨分子結構的實驗技術也有突破,因此生物結構資料庫資料量也有驚人的成長。
當科學家手上有了三十億個DNA序列的龐大生物資料庫之後,生命科學家們再也不可能用傳統的紙上作業的方法去解讀這些資料,必須依靠電腦的高速計算能力才有可能對這筆龐大的資料進行整理與分析。因此結合了分子生物學、生物物理學、統計數學、計算機科學…等跨領域的專家們紛紛投入這方面的研究,整合出一個新興的研究領域-生物資訊學(Bioinformatics)與計算生物學(Computational Biology,Biocomputing)。
圖一、分子生物學與計算機科學結合,產生了計算生物學。(圖摘錄自參考資料1)

拜20世紀90年代的電腦工業、網際網路和生物科技進步神速之賜,原則上只要連上網路,全世界的生物資料庫都垂手可得。因此生物資訊學結合了龐大的數位式生物資料庫、全球資訊網(World Wide Web, WWW)的網路傳輸連結、和電腦的高速計算能力。這門後基因體世代(Post-genomic Era)的研究技術,將會改變傳統的研究模式,降低研究成本及時間,達成加速基因資訊的解讀、蛋白質立體結構與功能預測、生物品種改良、藥物設計等的應用。
在全球資訊網上,可以發現有很多很多DNA資料庫、及基因序列分析的網站,同時也有很多蛋白質結構分析的網站,以及網上教學、生物資訊學最新發展、相關的應用等等,我將在此介紹全球資訊網上生物資訊學的資源,及我們建立的整合應用資料庫。

二、說明
" DNA資料庫
1、GenBank(http://www.ncbi.nlm.nih. gov/)[2]
GenBank成立於1988年,由美國國家衛生院(National Institutes of Health, NIH)的醫藥圖書資料部門(National Library of Medicine, NLM),生物技術資訊中心(National Center for Biotechnology Information, NCBI)負責管理與維護。NCBI的科學家主要的工作項目為,基因(gene)、基因組(genome)資料的分析、結構生物的計算,以及發展序列分析(sequence analysis)的數學方法。
GenBank的資料來源主要可以分成兩部份,(1)、世界各地的研究人員直接向GenBank提出,(2)、由工作人員自相關期刊上攫取。GeneBank並與位於歐洲的EMBL(European Molecular Biology Laboratory)、日本的DDBJ(the DNA Database ofJapan)資料庫,每天進行資料的交流,以確保三大基因資料庫都保有完整的資料。
圖二、GenBank的首頁畫面。

NCBI的主要服務項目有,基因序列的〞註冊〞、搜尋、比對,以及著名的整合性資料庫搜尋系統Entrez,除此之外NCBI也開始提供蛋白質三級結構的服務。首頁裡有七個服務項目的選擇鈕(button),PudMed, Entrez, BLAST, BankIt, OMIM, Taxonomy, Structure, 將分述如下:
(1) PudMed與Entrez :這是NCBI發展的整合性搜尋系統,可以搜尋MEDLINE,這是全世界最大最完整的醫學資料庫,可以得到論文全文的摘要,目前約有九佰萬筆論文。搜尋GenBank的DNA序列、GenBank的蛋白質胺基酸的序列、生物分子的三級結構、以及完整的基因組資訊。搜尋的方法很簡單,只要輸入關鍵字、或是作者名字、期刊名稱等方法就可以了。如果要知道論文的摘要,只要在作者前的小框框選擇起來便可以了。
(2) BLAST:全名為Basic Local Alignment Search Tool,是DNA或胺基酸序列比對分析的重要軟體。NCBI提供了5個blast的軟體,分別用來比對基因或蛋白質:1)blastp:用來比對蛋白質資料庫內的胺基酸序列、2)blastn:用來比對基因資料庫內的核甘酸序列、3)blastx:輸入核甘酸序列,將可能轉譯成的六種(三個核甘酸轉譯成一個胺基酸,所以一股5'-3'的核甘酸序列可以有三種轉譯的可能性,另一股核甘酸序列也有三種可能)胺基酸序列,在蛋白質資料庫內進行比對、4)tblastn:輸入胺基酸序列,比對可能的核甘酸序列、5)tblastx:輸入核甘酸序列,將其可能轉譯的六種結果,在基因資料庫內進行搜尋比對。
(3) BankIt:顧名思意,從這裡可以註冊新發現的基因序列。
(4) OMIM:Online Mendelian Inheritance in Man,這是由在約翰霍普金斯大學的McKusick教授帶領的研究團隊所建立的資料庫,主要的資料是,人類基因以及基因性疾病的資訊。資料的內容除了文件詳細說明基因疾病之外,還有圖片,以及相關的參考文獻。資料庫也連線到Entrez搜尋系統,可以搜尋MEDLINE的文獻;同時也連線到相關的基因或蛋白質序列的資料庫。
 (5) Taxonomy:在這個生物分類學(taxonomy)的資料庫中,所有在GenBank註冊的基因序列來源的物種名稱都列名其中。在這裡只要輸入物種的名稱,例如conus,便可以獲知它在生物家系(lineage)中所在的位置,同時可以獲得它的基因序列,以及蛋白質序列。如果你有興趣的話,taxonomic resources更進一步提供了書目,讓你在生命的大樹中閒逛。
(6) Structure:這個選項中最重要的是Molecular Modeling Database (MMDB)資料庫及Cn3D(See in 3D)軟體。MMDB中收集了所有Brookhaven蛋白質資料庫(Protein DataBank, PDB)中利用結晶,以及核磁共振技術所獲得生物分子的三級結構的資料。而檢視生物巨分子的三級結構,可以提供我們生物分子功能,或是反應機制的有用資訊,因此NCBI發展了一套檢視生物巨分子三級結構的軟體Cn3D。Cn3D可以檢視MMDB的資料,需要注意的是MMDB的資料格式是ASN.1,不同於PDB的資料格式。
除了前面所敘述的服務之外,NCBI還提供有人類基因組的基因地圖(gene map)、人類染色體的基因序列、以及有關的EST(Expressed Sequence Tags)、STS(Sequence Tagged Sites)資料庫。在這個網站中讀者幾乎可以得到任何你所想知道,有關於基因的知識。

2、歐洲分子生物實驗室(European Molecular Biology Laboratory, EMBL) (http:// www.embl-heidelberg.de/) [3]
EMBL成立於1974年,由14個歐洲國家及以色列所共同維護管理,是歐洲分子生物、細胞生物、結構生物、以及生物資訊學研究與訓練的重鎮。EMBL的主要實驗室在德國海德堡(Heidelberg),同時還有三個分支機構,分別位於德國漢堡(Hamburg)、法國東南部的格勒諾勃(Grenoble)、以及英國的茵格司頓(Hinxton)。 
在海德堡實驗室中,目前正推動著七個大型研究計劃,針對分子生物及細胞生物的領域進行研究,其中兩個研究計劃是對上述二個學門的設備、儀器及技術進行開發研究。在漢堡及格勒諾勃的實驗室中,EMBL提供高能量的X光與中子輻射設備,提供研究人員進行結構生物學的研究。英國的茵格司頓實驗室,則提供生物資訊學的研究及服務, EMBL的核甘酸資料庫便設在此處。
對於EMBL的過去、未來,各分支機構所進行的研究計劃,以及它在科學上所扮演的重要角色,它的基礎研究成果對於人類未來的影響等,想要更進一步的瞭解。或是想得到詳細的地圖與旅遊資訊,到這些地方參觀,朝聖一下。請立刻連線到首頁的General Information。
進入EMBL 的Computational Services可以獲得它所提供的所有全球資訊網提供的生物計算網路資源。
(1)Biocomputing Unit:
這個生物計算的unit,由三個研究群(Bork, Gibson, Vriend)共同組成,分別進行基因組(genome)的分析比對、序列的分析比對、及三度空間的模型建立。除此之外,他們也提供訓練課程及其它服務,同時也維護一個與G蛋白有關的資料庫- G-protein coupled receptor database。
(2)Computational Services
由EMBL發展及提供的軟體主要有,分子生物銀行的網路瀏覽器(browser)─SWSWWW、蛋白質結構及序列的分析軟體,包括了對二級結構的分析與預測,並且能預測是否為穿透膜(transmembrane)的蛋白質,其基本原理為神經網路理論;還有三級結構的比對軟體DALI,蛋白質等電位pI的計算軟體。此外也有序列比對軟體,BLAST、FASTA、TFASTA等。
(3)Biological Information Services
有關生物資訊的服務主要有:PDB的鏡射站、分子生物的資料庫及軟體、酵母菌(Yeast)基因組、Haemophilus Influenza完整基因組、Mycoplasma genitalium完整基因組、Methanococcus jannaschii完整基因組,及FTP、Gopher的網路服務。
除了基礎研究及網路資源服務之外,EMBL也是歐洲分子生物學最重要的教育與訓練中心,每一年都會舉行數場國際性的會議,也會教授實用的課程,課程的大綱並會公佈在網路上。

3、EBI核甘酸資料庫(http://www.ebi.ac.uk)
EMBL的核甘酸資料庫成立於1980年,是由位於英國海格司特的歐洲生物資訊研究中心(European Bioinformatics Institute, EBI)負責,它是歐洲分子生物實驗室EMBL的一個分支機構,收集全球的DNA與RNA序列,及其相關的資料。
核甘酸資料的取得來自於各地的實驗室直接提出註冊,或是收集歐洲主要的分子生物期刊文獻、歐洲專利局(EuropeanPatent Office, EPO)中的DNA與RNA序列,每一季的最新資料會以光碟片CD-ROM的形式出版。自1982年起與美國GenBank、日本的DDBJ,每天交流並更新全世界的核酸序列資料,成為國際性的整合資料庫。
進入EBI的服務部份的首頁可以瞭解到其主要的服務有,資料庫的更新與維護、核甘酸/胺基酸序列的搜尋與比對、以及其它的網路資源服務。
EBI所維護的資料庫除了EMBL的核甘酸資料庫之外,還有著名的SWISS-PROT資料庫(蛋白質序列資料庫),及基因免疫資料庫-IMGT(Immunogenetics database)、果蠅基因資料庫-FlyBase (Drosophila genetic map databse)、輻射雜化之基因資料庫-RHDB(Radiation hybrid database) ,同時也設立了蛋白質三級結構資料庫PDB、核酸資料庫NDB(The nucleic acid database)的鏡射站(mirror site),裡面的內容與其母站完全相同。
取得EBI資料庫的資料方法有二種,第一種方法是輸入取得號碼(accession number),在畫面中選取Query Databases後,再選擇Simple Sequence retrieval便可得到搜尋的畫面,在框框裡填入取得號碼便完成了。在這裡有三個資料庫的取得號碼可以選擇,分別是EMBL、SWISS-PROT、PROSITE三個資料庫。第二種方法是比對核甘酸/胺基酸序列,EBI所提供的方法是FASTA軟體,讀者可以在圖二選取Similarity Searches後,可以得到圖五的畫面,在畫面中選擇FASTA homology searches,之後直接輸入想要比對的序列便可以了。另一種EBI提供的序列比對方式是BLITZ的電子郵件式服務,在圖五的畫面選擇BLITZ的服務後,得到如圖六的螢幕畫面,BLITZ所使用的MPsrch程式是目前所知最快速的比對程式。
除了可以取得資料庫內的資料之外,EBI同時也提供讀者,輸入蛋白質序列,便可以比對存在PROSITE資料庫中所有的蛋白質序列,進而得知蛋白質的功能的資訊,使用這項服務時只需選擇圖五的第三項服務─PROSITE pattern searches。最後還提供連結到EMBL主實驗室的蛋白質結構預測的服務─PredictProtein server。
EBI將所提供的軟體資料分門別類,目前為止分成10個domain,每個domain再細分為數個subdomain。讀者如果對某一類軟體有興趣的話,只需要在subdomain選項上選取即可。由於BioCatalogue對於每個軟體都會說明,因此是讀者用來選擇使用最佳軟體的一項參考資料,謹在此建議讀者不可經易錯過這項資訊。

4、日本的基因資料庫DDBJ (http://www.ddbj.nig.ac.jp)[4]
日本的基因資料庫─DDBJ(DNA Data Bank of Japan)由日本的國家基因研究院(National Institute of Genetics, NIG)負責管理,自1984年起開始運作,是日本境內唯一的DNA資料庫,資料的來源主要是日本的研究工作者的研究成果,同時也收集其它研究者的成果。DDBJ已經與歐洲的EBI,以及美國的GenBank這二大資料庫,進行例行的資料流通,組成了國際性的基因資料庫。並共同主辦二項國際性的年會─International DNA Data Banks Advisory Meeting和International DNA Data Banks Collaborative Meeting。
DDBJ提供資料取得的方法有三種,首先是輸入資料庫(DDBJ, GenBank, EBI)的資料取得號碼獲得資料的方法,一次可以輸入10個號碼,號碼之間以空格隔開。第二種方法是輸入關鍵字搜尋的方法,在這裡除了三大基因資料庫之外,還提供了二個蛋白質的資料庫(PIR, SWISS-PROT),共有五個資料庫的資料提供查詢。第三種方法是序列比對的方法,輸入序列後用比對程式FASTA、BLAST、SSEARCH進行比對後給予最佳的查詢結果。
DDBJ除了提供資料取得之外,還提供蛋白質二級結構的預測。方法是使用SSThread軟體進行預測,讀者需要輸入FASTA格式的胺基酸序列,及電子郵件信箱位址,便可以獲得預測的結果。投遞胺基酸序列的方法,可以直接在WWW上投遞,或是用e-mail投遞。對SSThread軟體有興趣,可以參考Masahiro, I.等人於1997年在Comput. Appl. Biosci.上的文章。
日本的國家基因研究院除了管理DDBJ資料庫之外,同時也在發展許多的資料庫。
  
除了上述的三大DNA資料庫之外,美國約翰霍普金斯(Johns Hopkins)大學的人類基因組資料庫,也是一個重要的DNA資料網站,尤其是它所收集的基因組地圖的資料更具參考價值,網址是http://www.gdb.org。對於分子生物學家在實驗室的操作,下面兩個網站-限制酉每  資料庫(REBASE) (http://rebase.neb.com/rebase/rebase.html)、Vector資料庫(http://vectordb. atcg .com /),提供了限制酉每 辨認的DNA序列(recognition sequence)、切斷核酸鏈的位置(cleavage site),進入宿主所需要的vector等資訊,這些都是實驗室中進行基因工程所不可或缺的工具。

" 蛋白質資料庫(Protein Database)
1、PDB (Protein Data Bank) (http://www.rcsb.org) [5]
蛋白質資料銀行,收集了全世界利用核磁共振、X-ray繞射實驗技術所解出來的蛋白質和DNA的三度空間立體結構,以及理論計算的模型結構。這個資料庫所提供的資訊是全球最重要的蛋白質結構資料來源,是所有結構生物學研究工作者,瞭解蛋白質立體結構及其功能的知識泉源。主要的資訊有,原子的空間座標、蛋白質的一級結構與二級結構、以及引用的文獻出處[6]。
圖三、原先由Brookhaven國家實驗室管理的PDB資料庫,自1999年7月起由新成立的RCSB機構負責。

2、SCOP (Structural Classification of Proteins)(http://scop.mrc-lmb.cam. ac.uk/scop)[7]
SCOP是依蛋白質的結構為分類依據,以樹狀結構的分類方式 將蛋白質分成Root、Class、Fold、Superfamily、Family、Protein、Species七個層次,希望將蛋白質的三級結構與其演化之間的關係能連結起來。由於蛋白質的立體結構(structure)決定蛋白質的功能 (function),因此尋求結構與功能之間的關係(structure-function relationship)是結構生物學家重要的工作之一,而隨著蛋白質的立體結構被決定出來的數目愈來愈多,結構生物學家對蛋白質的立體結構進行比對之後,有了許多的新發現。例如,當演化的距離 (evolutionary distance)較近時,使用胺基酸序列的比對就可以得到很不錯的結果;但是演化距離遠時,一般的序列比對方法便不敷使用了,這個時候就需要使用三度空間的立體結構比對了,所以立體結構比對就好比天文物理學家有一個更大的望遠鏡,可以把宇宙看得更清楚一樣,可以看到更遠的演化關係[8]。
除了PDB、SCOP之外,英國的結構生物學家Christine Orengo也整理出蛋白質立體結構的分類原則,成立了CATH (Class Architecture Topology Homology)的網站(http://www.biochem. ucl.ac.uk/bsm/cath) [9];另外Dali (http://www2.ebi.ac.uk.dali/)這個網站提供蛋白質立體結構比對的服務,使用者將想要進行比對的蛋白質的原子座標,以電子郵件的方式寄給Dali,Dali便會比對PDB裡面所有的蛋白質結構,將最後的比對結果寄還給你。
 
3、ExPASy (http://www.expasy.ch/)
ExPASy位於瑞士日內瓦大學,主要有六個資料庫,所強調的服務在於與蛋白質有關的資料,是蛋白質資料庫重要的資源網站。
 (l)Swiss-Prot:提供完整的註解性(annotation)資料的資料庫,描述蛋白質的生化功能、各區域(domain)的結構與功能、轉譯成蛋白質後的修飾(post-translational modification)、突變種,等等的註解;同時Swiss-Prot也提供與其它資料庫的連線,可以連線到EMBL的DNA資料庫、PROSITE資料庫、PDB資料庫等。
 (2)PROSITE:這是一個以蛋白質功能為分類基準的資料庫,資料庫內的資料包括了蛋白質的生化功能、來源、活性區域、胺基酸序列的一致性模式(consensus pattern)。這個網站也提供兩個預測蛋白質功能的軟體-ScanProsite和ProfileScan,讀者輸入未知功能的胺基酸序列,進行序列比對後可以提供這段胺基酸序列可能屬於那個蛋白質家族,可能有那些功能等等的資訊。
 (3)Swiss-2DPage:收集蛋白質在二維電泳膠片上特定位置的資料庫。二維蛋白質電泳膠片的原理是,利用蛋白質分子量、等電位(pI)的差異,在施予電埸的驅動力(driving force)後,會出現在電泳膠片上不同的位置。所以膠片上的兩個梯度分別是分子量和pH值。目前Swiss-2DPage提供了包括紅血球、血漿(plasma)、血小板(Platelet)、淋巴瘤(lymphoma)等十二片電泳膠片。如果你手頭上有個蛋白質,經過電泳實驗後,比對這十二片電泳膠片,若出現在相同的位置就可以由這個資料庫得知現在手上拿到的可能是什麼蛋白質。
 (4)Swiss-3DImage:這個資料庫提供了蛋白質的三度空間立體結構的圖像,圖像有平面的也有立體的;同時也連線到PDB的入口,可以取得原子空間座標的資料,也可以利用分子檢視軟體-Rasmol,對蛋白質做進一步的檢視。通過連線也可以進入SCOP資料庫,和EMBL的HSSP (Homology- derived SecondaryStructure of Proteins) 資料庫。
 (5)ENZYME:酵素是生物體生命力的啟動機,維持生命體的新陳代謝的功能。酵素的分功非常的專業,只對特定的受質(substrate)進行催化,產生特定的產物。ENZYME這個資料庫的資料有,酵素所催化的生化反應方程式、酵素所需要的輔助因子(cofactor)、酵素在Boehringer Mannheim所提供的生化新陳代謝圖中的位置。最後它也和其他的酵素資料庫進行網路連結,也提供了Swiss-Prot的登錄號碼。這個資料庫對於生化工廠的製程(process)相信有很大的幫助。
 (6)SeqAnalRef:在這個資料庫裡,讀者可以查到所有關於生物巨分子序列分析的參考資料。這些資料包括了,胺基酸與DNA的序列比對、生物巨分子立體結構模擬、序列分析的數學方法、類神經網路、各種電腦程式語言、電腦模擬、各類工作站系統…,幾乎所有計算生物學有關領域的論文資料都收集到了。

" 檢視生物巨分子立體結構
有了大量的生物資料後,如何分析整理是一個立刻要面臨的問題。科學研究成果的視覺化(Visualization)一直是科學研究過程中很重要的一個步驟,不僅是成果容易讓人瞭解,也有助於結果的分析。而在分析、研究生物巨分子立體結構的過程中則是不可或缺的工具了。
美國國家衛生研究院的分子模型中心(Center for Molecular Modeling, CMM)收集了全球研究分子模型的網站,從這裡開始可以到達每一個分子模型的網站。另外從英國的BSM (Biomolecular Structure and Modeling)網站,可以連結到結晶學 (crystallography)或是核磁共振(NMR)的相關網站,這二大技術是目前決定生物巨分子立體結構最重要的技術。美國加州的Scripps研究院以及在舊金山的加州大學(UCSF),也都設立了電腦圖畫實驗室,進行生物巨分子立體模型的建立。
美國伊利諾大學的理論生物物理實驗室http://www.ks.uiuc.edu/,發展了一套電腦視覺環境系統-MDScope做為結構生物學模擬分子動態的研究工具。其中的一部份稱為VMD (Visual Molecular Dynamics),用來展示和分析蛋白質或DNA,VMD配備了很好的圖形使用者介面(Graphical User Interface, GUI),方便使用者進行操作;同時VMD也可以和虛擬實境的CAVE環境配合,觀察者戴上立體眼鏡後可以看到分子結構的立體景像,便於分析蛋白質或DNA。透過通訊介面軟體-MDComm,VMD更能將在遠端所執行的分子動態模擬結果,經由網路傳輸展現在VMD的螢幕上。[10,11]
最後,我想介紹的是一個目前在生命科學界最流行的分子檢視軟體之一Rasmol。這個軟體是在英國葛蘭素(Glaxo Wellcome)公司的Roger Sayle所撰寫的,美國的柏克萊大學更擴充了它的功能,可以很方便的檢視生物巨分子模型,甚至可以製作動畫。而且它是個免費的軟體,可以在不同的平台上執行。
雖然這個軟體所提供的視窗指令有限,但是它的文字指令功能強大,可以達成絕大部份的工作要求。而利用Tcl/Tk程式語言,我們成功的將Rasmol的文字指令,整合到視窗的環境中,提供使用者一個更方便的使用環境[12]。
圖四、圖的左邊是Rasmol EZ-GUI的部份表單畫面,使用Rasmol EZ-GUI的視窗指令就可以完成圖右的結果。圖中的Groups表單提供使用者自行定義所想要顯示的分子區域,如果要更精準的特定選擇某些胺基酸,可以拉開Select表單進行選擇。Information表單提供基本資料及生物巨分子的一級結構(胺基酸和DNA序列)資料。Models表單和Display表單提供顯示分子的各種形式、顏色、大小的選擇。

" 資料庫的整合及應用
由於資料量的龐大無比,所以如何快速而且正確地取得、管理、分析、使用這些數位資訊便成為很重要的課題了。因此建立特定主題次資料庫(specific sub-database)及註解資料庫(annotated database),將具有相同特點的蛋白質資料進行歸納、分析,找出它們之間的共同特徵,便是這類問題的一個很好的解決方法。在此我將介紹以蛋白質資料庫PDB為主要資訊來源的一個註解過的資料庫,葡萄糖胺聚合醣(GAGs)醣基結合的蛋白質次級資料庫,提供研究工作者一個整合性的研究資料庫。
圖五、自行建立的葡萄糖胺聚合醣網路整合應用資料庫首頁畫面。

在這個資料庫中我收集了所有透過瀏覽器(browser)可以超連結得到的資訊,包括各種文獻資料、分子序列以及三度空間立體結構資料。生物巨分子立體結構提供的結構生物學資訊,是我們瞭解分子之間作用機制的來源;同時也是進行電腦模擬,進一步瞭解其動態結構所必需的資料。我們也將分子檢視軟體 ─ RasMol和Chime整合在網頁上,提供更方便的方式觀察生物巨分子的立體結構,尤其是對結構生物學不是很熟悉的用戶提供了更友善的使用者介面[13]。

圖六、整合生物巨分子檢視軟體RasMol與Chime於同一網頁的生物巨分子三度空間立體結構觀察網頁。在這個網頁可以同時使用我們提供的下拉式選單的RasMol指令,和自行輸入文字指令,也可以撰寫巨集指令包裝到小圖像(icon)內描繪出蛋白質的重要特徵。

生物資訊學與生物資料庫的整合應用,個人認為下列的三個應用是相當重要的應用。
(1) 藥物設計(Drug Design)─ 現在人類面臨最大威脅的傳染病是有世紀黑死病之稱的愛滋病,而應用生物資訊學正可以加速抗愛滋病毒(anti-HIV-l)新藥的開發[14]。藥物開發的過程中,藥物與作用對象之間的三度空間的相對關係非常重要,必需要互相配對的很好,才有成為新藥的可能,這個技術就是Docking,在美國加州Scripps研究院的Olson教授[15]、以及在舊金山的加州大學的Kuntz教授[16]在這個技術的應用都有所貢獻。
(2) 分子演化樹建立(Molecular Evolution)─ 將物種分類進行演化樹的建立是一門歷史久遠的學科,用來說明物種之間親疏遠近的關係。早期的分類原則是根據解剖學的知識建立起演化樹,現在則拜分子生物學之賜,有大量DNA序列的資料,科學家利用多重序列排列(multiple sequence alignment)的分析方法,建立起有分子生物學基礎的分子演化樹[17]。另外有科學家認為,蛋白質的結構決定了蛋白質的功能,因此對於蛋白質執行功能部位的三度空間結構進行比對,應該可以得到物種之間的演化關係[18] 。
(3) 基因組地圖繪製(Genome Mapping)─ 遺傳疾病的診斷,最早是由觀察染色體的異常來進行診斷,因此只能得到那個染色體有異常,可能發生什麼遺傳疾病的知識。對於是那些DNA序列的突變所造成的,完全沒有概念,更談不上利用基因治療了。基因組地圖的繪製,便是找出所謂的基因地標(gene marker),定出遺傳疾病對應到染色體的那個位置,破壞的是那個蛋白質的功能,進而研究基因治療的可行性[19]。一但這個人類基因組地圖製作完成之後,人類遺傳疾病的篩選會更有效率,遺傳疾病的治療也有可能實現,將會大幅降低社會成本的支出。這個巨大的誘因,相信也是推動人類基因組解讀計劃進行的動力之一。
由於基因資料庫的內容,有巨大的市場商機,科學家可以利用生物密碼製造出任何他們可以想像得到的生物巨分子,用來做為藥物;可以改良動植物,增加糧食的產量等等。因此全球各大藥廠莫不競相投入人力與財力,發展分析軟體,甚至建立自己獨有的資料庫;近來更有DNA序列做為專利提出登記的爭議出現[20]。目前有許多發展生物科技的研究機構和大藥廠,正應用生物資訊學的資訊進行研究,搶攻目前最熱門的市場[21] 。

三、結論
1953年華生(James Watson)和克里克(Francis Click)發現DNA的雙螺旋結構,而瞭解到遺傳生命的密碼便是儲存在DNA序列中。1977年第一個完整的基因組--噬茵體  174,全長5386個DNA序列被決定下來; 18年後─1995年第二個完整的基因組DNA全序列才被決定下來,是細菌Haemophilus influenzae共有1830419對DNA。從此開始,DNA全序列定序的技術成熟可以處理上百萬的DNA序列,每年都有一些簡單生物的完整基因組,例如濾過性病毒、大腸桿菌、單細胞酵母菌等,去年(1998)年底第一個動物--線蟲Caenorhabditis elegans全長有九仟七佰萬對DNA的完整基因組定序完成。
決定DNA全序列是件困難的工作,原因是每次實驗所得到的DNA片段只有幾佰個DNA的長度,而全序列必需將這數以萬計的片段精確地排列起來,否則我們得到的〞生命百科全書〞將是一個錯誤的版本。在這個類似拼圖的過程中,有很多的DNA序列是重覆的片段,這些DNA重覆的片段功能還不太清楚,卻增加了DNA全序列定序工作的困難度。
有了基因組全序列,再經過註解之後,我們便可以知道生物體生命過程中所需要的蛋白質有那些,更進一步可以研究這些生物巨分子之間可能的互動關係,瞭解生命成長過程的祕密。
美國國家衛生研究院負責維護管理的基因銀行,1997年10月收集的DNA資料有11.6億對,到了1998年底成長到21.6億對,14個月成長10億對DNA的資料量,可以想見以後的成長速度會更快。面對生物資料庫的爆炸性成長,資料搜尋的技術會愈來愈重要,為了避免迷失在網路資料庫的叢林中,一個自行建立的目標導向的整合型次級資料庫是一個較佳的模式。藉由資料庫的整合、分析,除了可以幫助實驗設計外,也可以由資料發掘(data mining)的過程中找出資料之間的關連性,創造出新的知識。
經過資料庫資料發掘後,我們可以利用電腦輔助藥物設計。在藥物開發的過程中,藥物與作用對象之間的分子作用機制是重要的基礎,而這個基礎建立在它們的三度空間結構中相對位置的關係上。因此結合結構生物學及化學小分子資料庫,分析各官能基的電性、距離、方位角等資訊。再利用電腦高速計算的能力根據分子動力學的理論,找出它們之間的最佳結合模式,提供藥物作用機制的模型。這種研發模式可以減少藥物合成實驗嘗試錯誤的次數,提升藥物研發的效率。
圖七、利用電腦輔助,設計最佳藥物(彩色部份,紅色代表氧原子、綠色為碳原子、白色為氫原子),用以爭相與穿透細胞膜的受體(藍色七段螺旋體的部份)結合。藥效強弱,取決於其與受體上胺基酸(黃色部份)之相互作用。

蛋白質結構分析、資料開發與整合應、以及電腦輔助藥物設計等工作,都需要有熟悉的電腦使用能力。這方面是傳統的生命科學家們所不熟悉的領域,而是物理學家們悠遊愉快的部份,也是比較容易參與的部份,希望這篇雜文能引起物理學家的興趣,參與生物物理的研究。
 
四、參考資料
[1] Copper, N. G, ed. "The Human Genome Project" (1994) University Science Books.
[2] Benson, D.A., M.S. Boguski, D.J. Lipman, J. Ostell & D.L. Wheeler "GenBank" (1999) Nucleic Acids Res., 27, 12-17
[3] Stoesser, G., M.A. Tuli, R. Lopez & P. Sterk, "The EMBL Nucleotide Sequence Database" (1999) Nucleic Acids Res., 27, 18-24.
[4] Sugawara, H., S. Miyazaki, T. Gojobori & Y. Tateno "DNA Data Bank of Japan dealing with large-scale data submission" (1999) Nucleic Acids Res., 27, 25-28.
[5] Sussman, J. L. "Bridging the gap" (1997) Nature Structural Biology, 4, 517.
[6] 謝昌煥 "解讀生物巨分子結構資料庫PDB與SCOP"(1998) 高速計算世界Vol.6, No.3 61~75.
[7] Hubbard, T. J. P., A. G. Murzin, S. E. Brenner & C. Chothia "SCOP: a Structure Classification of Proteins database" (1997) Nucleic Acids Res. 25, 236-239.
[8] Holm L. & C. Sander "Mapping the Protein Universe" (1996) Science, 273, 595-602.
[9] Pennisi, E. "Taking a Structured Approach to Understanding Proteins" (1998) Science, 279, 978-979.
[10] Nelson, M., et al. "MDScope - a visual computing environment for structural biology" (1995) Comp. Phys. Comm., 91, 111-133.
[11]Humphrey, W., A. Dalke & K. Schulten "VMD: Visual Molecular Dyamics" (1996) J. Mol. Graphics, 14, 33-38.
[12] 謝昌煥、黃鎮剛 "Rasmol EZ-GUI圖形使用者界面程式語言 Tcl/Tk的應用" (1997)高速計算世界,Vo15, No3, 26-29.
[13] 謝昌煥、呂平江 "網際網路與生物資料庫整合應用─葡萄糖胺聚合醣(GAGs)資料庫的建置" (1999) 科學發展月刊,列印中.                       
[14] Fishman, R. H. B. "Bioinformatics speeds HIV-1 drug development"  (1996) Lancet, 348, 1648.
[15] Morris, G. M., D. S. Goodsell, R. Huey & A. J. Olson "Distributed automated docking of flexible ligands to proteins: Parallel applications of AuotDock 2.4" (1996) J. Computer-Aided Molecular Desing, 10, 293-304.
[16] Kuntz, I. D. "Structure-Based Strategies for Drug Desing and Discovery" (1992) Science, 257, 1078-1082.
[17] Hein, J. "Unified Approach to Alignment and Phylogenies" (1996) Methods. in Enzymology, 183, 626-645.
[18.] Johnson, M. S., A. Sali & T. L. Blundell "Phylogenetic Relationships from Three-Dimensional Protein Structures" (1996) Methods. in Enzymology, 183, 670-690.
[19] Speed, T. & M. S. Waterman ed. "Genetic Mapping and DNA Sequencing" (1996) Springer-Verlag New York, Inc.
[20] Fred Warshofsky "專利怪獸:生物科技" (1997)專利奇兵第八章,時報文化出版社(張禹治譯)。
[21] Gershon D., B. W. Sobral, B. Horton, P. Wickware, H. Gavaghan & M. Strobl "Bioinformatics in a post-genomics age" (1997) Nature, 389, 417-422.

  

[ Back to 生物資訊軟體介紹 | Sections Index ]