Khai thác thêm từ các trình tự sinh học thông qua web

weirdhobbit · 15/05/2003

Khai thác thêm từ các trình tự sinh học thông qua web

Khai thác thêm từ các trình tự sinh học thông qua webElizabeth A. Greene & Steven Henikoff
Fred Hutchinson Cancer Research Center
1100 Fairview Ave. North
Seattle, Washington 98109-1024, USA

World Wide Web thực sự đã thay đổi cách nhìn của chúng ta về các protein và gene. Trước đây, chúng ta có thể thực hiện truy lục, tìm kiếm và phân tích ngay trên máy tính cá nhân của mình, nhưng việc này cũng đòi hỏi chúng ta phải luôn cập nhật dữ liệu và nâng cấp các phần mềm. Giờ đây, với các liên kết vào internet, mỗi chúng ta đều có các cơ sở dữ liệu và công cụ dồi dào, luôn được cập nhật.

Truy xuất thông tin về trình tự sinh học từ các cơ sở dữ liệu.
Entrez là công cụ truy xuất thông tin cơ bản nhất đối với các nhà sinh học phân tử. Cũng như các công cụ tìm kiếm khác, trình duyệt Entrez sắp xếp, phân loại các cơ sở dữ liệu sinh học quan trọng: ngân hàng các trình tự và cấu trúc, sưu tầm các trích dẫn và tóm tắt của PubMed. Ðiểm mạnh chính của Entrez là sự tích hợp giữa các mục trong ngân hàng dữ liệu. Ngoài ra, các giải thuật tìm kiếm cũng cug cấp đường dẫn đến các trình tự và các ấn phẩm có liên quan.

Khi dữ liệu cần truy xuất là một protein, SwissProt cung cấp rất nhiều các liên kết đến vô số các nguồn thông tin khác. Ví dụ như mục bài về nhân tố sao mã đặc hiệu cho tuyến yên, POU1F1, bao gồm các liên kết đến GeneCard và OMIM, nơi cung cấp vị trí trên bản đồ di truyền, các kiểu hình và dữ liệu về sự biểu hiện. Liên kết đến PROSITE cung cấp bản mô tả về POU và các homeobox module hiện diện trong POU1F1 protein, và liên kết đến ProDom cung cấp các hình ảnh mô tả cách các POU1F1 module này align với các module tương đồng ở các protein khác. Một liên kết đến Swiss-Model cung cấp mô hình cấu trúc 3D của POU1F1 được dự đoán dựa vào cấu trúc tinh thể đã biết của POU2F1. Nhiêu database chuyên biệt cũng được cung cấp thông qua các liên kết trong Swiss-Prot, chẳng hạn như TRANSFAC database, nơi tóm tắt sự đặc hiệu về liên kết với DNA của nhân tố sao mã POU1F1.
Việc truy xuất nhiều trình tự cùng lúc hoặc nhiều mục từ nhiều database khác nhau cũng có thể được thực hiện. Cả Entrez, ExPaSy và SRS đều có thể thực hiện được việc này.

Tìm kiếm các trình tự tương đồng
Việc tìm kiếm sự tương đồng trong các ngân hàng trình tự như ở BLAST và FASTA đã trở nên quá quen thuộc đối với các nhà sinh học. Tuy nhiên, sự gia tăng nhanh chóng của các trình tự trong ngân hàng dữ liệu cũng đòi hỏi sự phân nhỏ hay tách riêng các phần của ngân hàng dữ liệu để việc tìm kiếm có hiệu quả hơn.

Một tìm kiếm chính xác hơn cũng đồng nghĩa với việc giảm kích thước của các output cũng như giảm hoạt động của hệ thống. Ðiều này có thể thực hiện được bằng cách tìm kiếm ở những phần chuyên biệt trong một database lớn hay hạn chế việc tìm kiếm ở những dữ liệu mới cấp nhật. Trong một số trường hợp, các database chuyên biệt cho từng loài là một giải pháp thích hợp cho việc tìm kiếm và nó cũng được mong đợi vì các lí do sinh học khác. Một thuận lợi khác của việc tìm kiếm theo loài là có rất nhiều công trình giải trình tự bộ gen cung cấp những thông tin mới nhất của họ cho công chúng trên các server riêng trước khi đưa vào GenBank, tuy nhiên, địa chỉ của các server này thường ít được biết dến và khó tìm. Ðể giải quyết vần đề này, chúng tôi đã sưu tầm các liên kết trực tiếp đến organism-specific search engines. Chúng tôi cũng mở dịch vụ DIYDb BLAST (Do It Yourself BLAST) để người sử dụng có thể dùng để so sánh một trình tự với dữ liệu trình tự của chính mình. Ðược biết, đây là dịch vụ tìm kiếm trên database đầu tiên không cung cấp database.

Khám phá các quan hệ họ hàng của protein
Các cơ sở dữ liệu về trình tự đang gia tăng không ngừng về kích thước và số lượng, nhưng số lượng các hộ protein thì hầu như vẫn không đổi. Ðiều này càng tăng thêm giá trị của các database chuyên biệt cho từng họ protein trong việc tìm kiếm cũng như dự đoán cấu trúc và chức năng. Ðặc điểm về họ hàng của một trình tự protein có thể được xác định một cách hiệu quả bằng cách tìm kiếm trên các family-specific database. Blocks và Prints phát hiện các khu vực tương đồng trong khi ProDom, Pfam và ProfileScan phát hiện sự tương đồng trên toàn trình tự. Tính chất về các khu vực tương đồng của một họ protein có thể được dùng để phát hiện mối quan hệ họ hàng xa. Các khu vực này được xác định từ các multiple sequence alignments được thực hiện bởi ClustalW đối với những trình tự được align từ đầu đến cuối và bởi BlockMaker, MEME và Match-Box là những phần mềm dùng phương pháp dựa trên motif. Các công cụ này đều truy cập được từ một form tại BCM launcher, nơi cung cấp nhiều form hữu dụng cho việc phân tích trình tự. Ðể phát hiện quan hệ xa, MAST searcher sử dụng trực tiếp các output từ MEME và BlockMaker. Ngược lại, PSI-BLAST lại bắt đầu từ một trình tự và kết hợp giữa multiple alignment với việc tìm kiếm trong databank bằng cách thu thập những kết quả tốt nhất từ BLAST search và sử dụng các khu vực đã align để tiếp tục tìm kiếm.

Ðể xem xét một alignment, cách biểu diễn thông tin cũng rất quan trọng. LANLview mô tả các cặp alignment thành những hình được mã hóa theo màu nhằm diễn tả mức độ bảo tồn. Boxshade làm nổi bật các amino acid bảo tồn trong các multiple sequence alignment. Logos thể hiện vị trí của các multiple alignment như là những chồng chữ mã hóa a.a. mà chiều cao của chồng chữ này thể hiện mức độ bảo tồn. Thông tin về tiến hóa thường được biểu diễn dưới dạng cây được vẽ từ các multiple alignment, giúp phân biệt các mối quan hệ tiến hóa.

Ði từ trình tự đến cấu trúc
Hàng loạt các đặc tính cấu trúc có thể được tiên đoán nhờ vào việc phân tích các trình tự. Một số vùng không cấu trúc có thể được phát hiện như là compositionally biased segment bằng trình lọc SEG, giúp loại chúng khỏi các query của BLAST. Người ta cũng đã dự đoán khá chắc chán vùng coiled-coil từ trình tự protein. Các đoạn lặp lại trong cùng một chuỗi có thể được xác định bằng self-alignment. Những vùng xuyên màng trong protein được dự đoán bằng cách đo độ kị nước. Các nhân tố trong cấu trúc bậc hai cũng được dự đoán với độ chính xác hơn 70% khi có thông tin về multiple sequence alignment, và những dự đoán này có thể góp phần đánh giá cấu trúc và chức năng protein.

Ðối với những protein đã xác định được cấu trúc, CATH và SCOP cung cấp sự phân loại về sự cuộn của protein. Việc so sánh trực tiếp giữa những cấu trúc liên quan được thực hiện khá hoàn hảo nhờ VAST, phần mềm cho phép thể hiện và tương tác với cấu trúc 3 chiều. Chỉ vài năm trước đây, việc tương tác với các trúc 3 chiều còn đòi hỏi những phần mềm chuyên dụng và nhiều yêu cầu khác thì giờ đây, một web browser cũng có thể thể hiện những cấu trúc 3D tinh tế cho mỗi chúng ta.

Ðưa internet vào cuộc
Với tốc độ cập nhật các databse nhanh chóng như hiện nay, làm sao ta co thể theo kịp? Hãy sử dụng dịch vụ thông báo. Nó sẽ cập nhật cho bạn thông qua email những thông tin liên quan đến vấn đề mà bạn quan tâm chẳng hạn như đã tìm được một trình tự tương đồng với trình tự bạn quan tâm hay trình tự đó đã được vẽ bản đồ. Sequence Alerting System thực hiện tìm kiếm các protein mới mỗi ngày trong các databank cũng như thông báo các trình tự tương đồng mới. Khi một trình tự tương đồng mới được đưa vào Swiss-Prot databse, Swiss-Shop sẽ gởi thông báo cho bạn. Xref báo cho bạn mỗi khi tìm được một trình tự đã được vẽ bản đồ giống với trình tự của bạn.

Mạng Internet và đặc biệt là các trình duyệt web đã giúp ta thoát khỏi gánh nặng phải không ngừng cài đặt, bảo trì và cập nhật các phầm mềm cũng như cơ sở dữ liệu. Các công cụ ngày càng được hoàn thiện, các trang web được tích hợp với nhau tốt hơn, điều đó đã giúp ta có thêm thời gian dành cho nghiên cứu.

Entrez: http://www3.ncbi.nlm.nih.gov/Entrez/
Swiss-Prot: http://expasy.hcuge.ch/sprot/sprot-top.html
Swiss-Model: http://www.expasy.ch/swissmod/SWISS-MODEL.html
SRS: http://www.embl-heidelberg.de/srs5/
GeneCard: http://bioinfo.weizmann.ac.il/cards/
OMIM: http://www3.ncbi.nlm.nih.gov/Omim/
PROSITE: http://expasy.hcuge.ch/sprot/prosite.html
ProDom: http://protein.toulouse.inra.fr/
TRANSFAC: http://transfac.gbf.de/TRANSFAC/index.html
BLAST: http://www.ncbi.nlm.nih.gov/cgi-bin/BLAST/nph-newblast
FASTA: http://www2.ebi.ac.uk/fasta3/
THC: http://www.ncbi.nlm.nih.gov/cgi-bin/THCBlast/nph-thcblast
Organism-specific search engines: http://www.proweb.org/proweb/Tools/sim_search.html
DIYDb: http://www.proweb.org/proweb/Tools/WU-blast.html
Blocks: http://www.blocks.fhcrc.org
Prints: http://www.biochem.ucl.ac.uk/cgi-bin/attwood/SearchPrintsForm2.pl
Pfam: http://www.sanger.ac.uk/Pfam
ProfileScan: http://ulrec3.unil.ch/software/PFSCAN_form.html
ClustalW: http://www2.ebi.ac.uk/clustalw/
MEME: http://www.sdsc.edu/MEME/meme/website/meme.html
Match-Box: http://www.fundp.ac.be/sciences/biologie/bms/matchbox_submit.html
BCM launcher: http://kiwi.imgen.bcm.tmc.edu:8088/search-launcher/launcher.html
MAST: http://www.sdsc.edu/MEME/meme/website/mast.html
PSI-BLAST: http://www.ncbi.nlm.nih.gov/cgi-bin/BLAST/nph-psi_blast
LANLview: http://expasy.hcuge.ch/sprot/sim-prot.html
Boxshade: http://ulrec3.unil.ch/software/BOX_form.html
Logos: http://www.blocks.fhcrc.org/about_logos.html
Coiled-coil region: http://nightingale.lcs.mit.edu/cgi-bin/score
Self-alignment: http://www.proweb.org/proweb/Tools/selfblast.html
Transmembrane spanning regions: http://www.embl-heidelberg.de/cgi/tmap_mul.pl
Secondary structural elements: http://www.embl-heidelberg.de/predictprotein/ppDoPred.html
CATH: http://www.biochem.ucl.ac.uk/bsm/cath/
SCOP: http://scop.mrc-lmb.cam.ac.uk/scop/
VAST: http://www.ncbi.nlm.nih.gov/Structure/vast.html
Sequence Alerting System: http://www.bork.embl-heidelberg.de/Alerting/
Swiss-Shop: http://expasy.hcuge.ch/swisshop/SwissShopReq.html
Xref: http://www.ncbi.nlm.nih.gov/XREFdb/

Everything has two sides or more.

Khai thác thêm từ các trình tự sinh học thông qua web

weirdhobbit Thành viên quen thuộc

Chia sẻ trang này

Khai thác thêm từ các trình tự sinh học thông qua web

weirdhobbit Thành viên quen thuộc

Chia sẻ trang này

Tìm kiếm hữu ích