國家高速網路與計算中心
  國網中心     | 生物化學資料庫服務    
 
 
回首頁    | 好站連結    | SiteMap

 三維影像國際合作

 2005識之精微

 會議展示及參訪

 好站連結
最新消息
NGS分析平台
Olfactory DB
生物知識庫
知識庫服務說明
生技新知 
生物計算服務系統
生物計算服務說明   
生物序列分析     
軟體與資料庫 
結構生物軟體 
生醫影像軟體 
關於我們
認識生物計算小組
台灣生物資訊學會
聯絡我們
 
基因晶片簡介與分析及應用軟體介紹(上)
    (6482 reads)   _FPRINT
基因晶片簡介與分析及應用軟體介紹(上)

國家高速網路與計算中心 葉昌偉1 謝昌煥2

 

1國家高速網路與計算中心 科學計算組 專案助理研究員,c00cwy00@nchc.org.tw
2國家高速網路與計算中心 科學計算組組長 副研究員,c00chh00@nchc.org.tw

 


 

摘要
基因晶片(gene chip)可以同時針對生物體內數以千計的基因進行表現量分析,對於生命科學研究者而言,不論是細胞生命週期、生化調控路徑等基礎研究,還是藥物研發中對於藥物作用位置的篩選,到臨床的疾病診斷預測 等方向,都是基因晶片可以應用的範圍。基因晶片的分析是相當複雜的程序,由於分析的資料量龐大,需要應用到生物統計及生物資訊相關軟體的協助,本文將會針對基因晶片與其資料分析方法,以及相關軟體與國網中心提供之服務做個基礎的介紹。

 

前言
生物體中基因的表現千變萬化,過去生物學家為了探究基因表現的狀況,因而有了北方墨漬雜交法(northern hybridization),但這只跨出了一小步,北方墨漬雜交法有其限制,一次只能針對一個基因進行研究。隨著各種不同生物的基因序列不斷的被定序,也預測出生物體內基因數量的龐大,例如酵母菌(Yeast, Saccharomyces cerevisiae)有將近六千個基因,而我們人類也有約35,000個基因,所以一個能即時探究成千上萬個基因的工具—基因晶片,便因此誕生。
基因晶片的原理與北方墨漬雜交法相同,由於DNA是由四種不同的核甘酸A、T、G、C組成,而A與T、G與C有配對的特性,雙股DNA在加熱變性(denature)後,雙股間的氫鍵會被打斷而形成兩條單股DNA,而當造成變性的條件 移除後,單股DNA會依其互補序列,如AT與TA、CG與GC配對,產生黏合反應(reanneal)而形成雙股DNA,這種過程稱為復性(renature)。在基因晶片上,上千種的單股DNA探針(probe)被固定在載具(通常為玻璃)上,能與溶液中的單股DNA標的(target),如mRNA或cDNA,進行黏合反應,這種過程我們稱之為雜交(hybridization)[1]。
目前主要的基因晶片可分為兩大類,第一大類為在晶片上合成之寡核甘酸晶片(in situ synthesized oligonucleotide chips),第二大類為先合成之DNA晶片(pre-synthesized DNA chips)。
寡核甘酸晶片製作方式利用類似電子產業光蝕刻的方式,進行核甘酸的合成,將長度約25個鹼基的核甘酸合成在約指甲大小的晶片上,這種基因晶片的製備完全機械化,成本高,對於一般實驗室而言負擔太大;而另一種先合成的DNA晶片,將預先合成好的DNA探針,通常長度為100~5000個鹼基,利用點陣(spotting)或是噴墨的方式,固定於晶片上,由於製作成本較低[2],目前國內實驗室需進行基因晶片實驗時,通常採用此種基因晶片。

 

基因晶片的用途[3]
一般而言,生物體內數量龐大的基因並不會同時全部都表現,不同弁鄋滌穧]會在需要他的時候才會表現,而生物學家研究基因時,便會針對不同狀態下去探究基因的表現,就如同一開始所提及,以往只能研究一個或數個基因表現,自從基因晶片的出現,生物學家對於基因體的研究又往前邁進一大步。
而基因晶片究竟對生物學的發展帶來怎樣的幫助呢?由於基因晶片可以偵測整個生物體內多數基因的表現,在基因晶片發明初期,研究人員針對不同狀態下的細胞內所有基因表現進行研究,例如酵母菌(Yeast)的細胞週期、 果蠅Drosophila)在變態時的發育、進行細胞分裂的人類老化細胞,如此便可以得知細胞在不同週期時基因表現的差異。
另外有兩個深為研究人員注目的方向,預測基因弁鄐恞蘆奕]計也都屬於基因晶片的應用範圍。利用基因晶片針對突變細胞進行基因表現分析,便可以精確的區分先前未知的基因,而針對受藥物刺激的細胞進行基因表現分析,也可以用來鑑別藥物作用的位置。
基因晶片除了可以利用在基礎研究與藥物研發上,在臨床上還可以當做預測診斷疾病的工具,甚至協助醫生決定治療疾病的方式。目前在癌症的研究上,要分辨癌症的型式往往只能靠組織及病理的角度來判斷,倘若不同型的癌症在組織型態上差異不大時,就很容易導致分辨錯誤,並採用了錯誤的治療方式,而基因晶片可以容易的區分不同類型的癌症;或是在癌症早期尚未出現病理表徵時,便利用基因晶片早期診斷癌症的發生,而對病人做出適當的治療處置。
在傳染性疾病的問題上,釵h的病原都以演化出抗藥性的品系,甚至演化成新的病原物種,所以在基因晶片的應用上,也都針對診斷是否遭受感染以及研發新藥做為研究的方向。
由於生物體是一個非常複雜的系統,從細胞分裂、發育到死亡,上千億的細胞之間如何溝通聯繫,並且維持一個生命體的存活,都與細胞的表現有絕對的關係,有了基因晶片這種工具,提供了生物學家一個徹底探究生物奧妙的絕佳的機會。

 

基因晶片的分析
不論是上述所提及的何種基因晶片,經過研究人員的雜交實驗後,再透過晶片掃瞄器出產生的影像,必須再透過影像分析軟體將每一個探針所產生的影像數值化,才能讓研究人員進行更進一部的分析。也正因為基因晶片可以同時探究成千上萬個基因的表現,所以分析基因晶片所產生出來的大量數據,便需要大量的統計方法以及高速電腦參與分析基因的表現。
使用如同生物晶片這種高產量(high-throughput)的方法監測基因表現時,往往不能兼顧到每個基因的個別特性,會造成實驗所的數據與真實的基因表現產生些釭獄~差,所以在實驗時不僅要小心謹慎,也需要透過一些統計法,將數據正規化處理,將數據迴歸到可能的真實表現,圖一即是利用本中心提供之BASE軟體,透過局部線性迴歸方法LOWESS法[4]將數據正規化的例子,圖一上是原始數據,圖一下是正規化後的數據,圖一上的數據分佈有向左上方傾斜的趨勢,正規化後圖一下即修正了這個誤差。

 



 


 

圖一 上圖所顯示的是進行正規化前的數據分佈,經正規化後,數據分佈就如同下圖所示。

 

在基因晶片的實驗當中,最常見的就是單一因子下,不同基因表現的變化情形,也就是說透過不同處理的細胞與正常細胞之間的差異,在經過上述的正規化處理後,可以將外界的變因降到最低,而不影響到原有的單一因子對基因表現的影響,之後才能在相同的基準下進行有統計意義的比較與分析,檢定得到具有表現顯著差異的基因。

 



 

圖二 基因晶片分析流程圖。

 

圖二為基因晶片分析主要流程,就如之前所提及的,從影像的取得到資料的正規化,這些僅僅是針對資料的部分做處理,其中包含了哪些的生物意義都是未知的,在數據的分析上,除了針對具顯著表現的基因進行分析外,還可以進行將所得的數據歸類分析比對,也就是所謂的叢集分析(cluster analysis),這種分析方法可以將表現相類似的基因歸類到一個叢集,進而去分析同一個叢集內所有基因的關聯性。另外也可以將屬於相類似弁鈰穧]的表現,與叢集分析一同進行,藉以獲得相類似基因間之關係。
我們也可以利用現有已知的生化代謝反應路徑或訊息傳導路徑進行對應分析,藉由路徑圖片與數據資料的比對(如圖三),再配合如時間順序或不同階段實驗數據,可以分析而得到路徑上下游以及替代路徑等具有生物意義的結果。

 



 

圖三 基因晶片資料與訊息傳導路徑對應圖[5],圖中有顏色的小方塊即是基因表現資料。(圖片來源http://www.biocarta.com/)

 

微陣列基因表現資料庫社群[6]
有鑒於基因晶片價格昂貴,且所產生出來的資料量相當龐大,所以需要一個能將基因晶片的數據公開並共享的資料庫,讓全世界的生物學家、資訊學家及統計學家參與,所以一個由歐洲生物資訊研究所(EBI)、史丹佛大學以及Affymetrix公司等基因晶片相關研究單位及廠商設立的微陣列基因表現資料庫社群(Microarray Gene Expression Database Society,MGED Society) 便因此成立。這個社群的目的在於制定基因晶片數據註解及交換的標準,並且建立微陣列資料庫及研發相關軟體標準,並且推動在生物學界基因晶片數據具有高品質及良好註解,最後能夠共享這些研究成果。
Minimum Information About a Microarray Experiment (MIAME)是一個標準,它描述了關於基因晶片實驗最少量資訊,能夠明確的闡明基因晶片的實驗結果,並且能夠被重複進行實驗,這也是一個基因晶片資料庫 的標準格式。
MicroArray and Gene Expression (MAGE)提供了一個基因晶片表現資料展示的標準,使得不同來源的基因晶片資料可以相互交換。他們與OMG(Object Management Group)合作建立了MAGE-OM(MAGE-Object Model)做為基因晶片資料交換的原型,MAGE-ML(MAGE-Markup Language)做為基因晶片資料交換的格式,其中MAGE-OM以統一模型化語言(UML,Unified Modeling Language)做為基礎,而MAGE-ML以可延伸性標示語言(XML,eXtensible Markup Language)建構而成,MAGEstk(MAGE Software Toolkit),收集了釵h不同平台上MAGE-OM與MAGE-ML之間的轉換器工具軟體。

 


基因晶片分析應用軟體
由於生命科學研究人員對基因晶片分析的需求,業界以及學術界都推出釵h基因晶片相關的分析應用軟體,從單純進行影像處理、正規化、差異性表現分析、叢集分析或是資料庫軟體,到彙整多項弁鄋瑣膃X性軟體都有,下列表一、二為依弁鈰洃應n體與整合性軟體的比較表。

 

表一 基因晶片分析軟體分析比較表--依弁鈰洃?◎記號代表為免費軟體)

分析流程方法軟體系統平台免費軟體
Image processing GenePix  
 ArrayVisionWindows 
 ScanAlyzeWindows
 F-scanWindows, MacOS, Unix (MatLab is required)
 P-scanWindows, MacOS, Unix (MatLab is required)
Normalization ScoreCardWindows NT 4.0 SP5 or Windows 2000 
pin to pin normalizationArrayVisionWindows 
 AMAIDAWindows, MacOS
 CLUSFAVORWindows
 ArrayStatWindows 
Filtering CLUSFAVORWindows
Differential expression analysis PaGEUnix
 F-scanWindows, MacOS, Unix (MatLab is required)
 P-scanWindows, MacOS, Unix (MatLab is required)
 MAPSWindows NT 4.0 SP5
 ArrayStatWindows 
Significance analysis SAMWindows
 MAPSWindows NT 4.0 SP5
ClusteringHierarchical, K-means clustering, self-organizing map(SOM)Cluster/TreeViewWindows
Hierarchical, K-means clustering, self-organizing map(SOM)J-ExpressWindows, Mac OS, Linux 
Hierarchical clustering, Single linkage, UPGMA linkage, Complete linkageCLUSFAVORWindows
Weighted Voting(WV), k-nearest neighbors(KNN), SOMGeneClusterWindows, MacOS, Unix
Plaid ModelPLAIDWindows
K-means clustering, self-organizing map(SOM)XClusterWindows, Mac OS, Linux 
Hierarchical, K-means clustering, self-organizing map(SOM), PCA, Support Vecter MachineGenesisWindows 2000, Linux, Solaris, Tru64
ClassifyPrinciple Components Analysis(PCA)AMAIDAWindows, MacOS
Principle Components Analysis(PCA)CLUSFAVORWindows
Microarray database AMADWindows, Mac OS, Linux


表二 基因晶片分析軟體分析比較表--整合性軟體(◎記號代表有該弁鄏隤k不明)

 SpotFire DecisionSite for Functional GenomicsSilicon Genetics GeneSpringGeneXBASEAffymetrix Data Mining Tool (DMT)BioDiscovery GeneSightInforMax Vector Xpression
OSWindows, Mac OS or SolarisWindows, Mac OS or Unix(Linux or Solaris)Linux, Solaris, Mac OS, WindowsLinuxWindowsWindows, Linux, MacOSWindows
Statistical testSpotfire DecisionSite Statisticst-test, 2-way ANOVA test, 1-way post-hoc testMulti- Experiment Viewer ToolWindowsANOVA
Normalizationsixteen transformationsLOWESS, Global median ratio LOWESSGlobal, Control- based, M vs. A Plot, LOWESS
FilteringVisual FilteringLOWESSAverage value…etc.
ClusteringHierarchical, K-means clusteringHierarchical, K-means, QT clusteringHierarchical, K-means clustering, Self- Organizing MapHierarchical clusteringSelf- Organizing Map, modified Pearson's Correlation CoefficientHierarchical, K-means, neural network clusteringHierarchical, K-means clustering, Self- Organizing Map
ClassifyPrinciple Components Analysis (PCA)PCA, SVMPCAPCA PCA 
Other toolsR connector, combined with DecisionSite for Lead Discovery OpenDX, RMDS, plug-inMatrix Analysis Tool, Virtual Array Dynamic Enhancement System
MAGE    
Microarray database   MySQLMicroDB 
Freeware     
Others    only for Affymetrix GeneChip  

有了前述的基因晶片標準,基因晶片數據的分析與交換便有了一個標準的平台,在目前可取得的基因晶片分析應用軟體中,釵h也都按照該社群制定的標準,其中BASE(BioArray Software Environment)是一個結合標準基因晶片資料庫與分析軟體的環境平台[7,8]。
BASE是一個完全免費的網頁介面的基因晶片資料庫解決辦法,能夠處理大量的基因晶片數據,從生物實驗的資訊、基因晶片所產生的原始資料、原始影像,也提供了內建與外插的方式進行正規化、資料瀏覽與分析的工具。BASE是由瑞典Lund大學的三位研究人員Lao H Saal, Carl Troein, Johan Vallon-Christersson開發而成,目前陸續都有更新版的發行,尤其是這個基因晶片分析環境平台是完全免費使用,安裝程式、原始檔、操作手冊等都可以經由網路免費取得,對於學術單位進行基因晶片分析研究有相當大的幫助。其網址為http://base.thep.lu.se/。
BASE資料庫依照了MGED社群所制定的基因晶片實驗最少量資訊(MIAME)的規範所建立,其中包含了實驗設計、樣品製備、雜交過程、資料取得以及基因晶片設計等部分(如圖四),資料輸出依照MAGE-ML的格式,資料輸入亦可依照MAGE-OM物件的規範。

 



 

圖四 BASE基因晶片資料庫架構。(圖片來源http://base.thep.lu.se/)[8]

 

系統主要的架構以PHP與C++等語言所建構而成,後端為MySQL資料庫,前端為Apache網頁伺服器,使用者可透過瀏覽器使用該系統介面,圖五為系統架構。


 

圖五 BASE系統架構(圖片來源http://base.thep.lu.se/)[8]

 

目前本中心亦安裝BASE基因晶片資料庫分析系統(圖六),提供給國內學術單位參與使用測試,網址為http://bioinfo.nchc.org.tw/base/。

 



 

圖六 國網中心提供的BASE基因晶片資料庫分析系統
 
參考資料
1. 葉昌偉 (2002) 《交互雜交問題的探討與探針設計》,國立陽明大學解剖暨細胞生物學研究所生物資訊學程碩士論文。
2. Harrington, C.A., Rosenow, C., and Retief, J. (2000) Monitoring gene expression using DNA microarrays. Curr Opin Microbiol 3, 285-91.
3. Young, R.A. (2000) Biomedical discovery with DNA arrays. Cell. 102, 9-15.
4. Workman, C., Jensen, L.J., Jarmer, H., Berka, R., Gautier, L., Nielser, H.B., Saxild, H.H., Nielsen, C., Brunak, S., and Knudsen, S. (2002) A new non-linear normalization method for reducing variability in DNA microarray experiments. Genome Biol 3, research0048.
5. http://www.biocarta.com/
6. http://www.mged.org/
7. Saal, L.H., Troein, C., Vallon-Christersson, J., Gruvberger, S., Borg, A., and Peterson, C. (2002) BioArray Software Environment (BASE): a platform for comprehensive management and analysis of microarray data. Genome Biol 3, SOFTWARE0003.
8. http://base.thep.lu.se/


  

[ Back to 生物資訊軟體介紹 | Sections Index ]