1. Tuyển Mod quản lý diễn đàn. Các thành viên xem chi tiết tại đây

BLAST, giúp em với !

Chủ đề trong 'Công nghệ Sinh học' bởi thht, 04/07/2004.

  1. 1 người đang xem box này (Thành viên: 0, Khách: 1)
  1. thht

    thht Thành viên quen thuộc

    Tham gia ngày:
    12/05/2002
    Bài viết:
    557
    Đã được thích:
    0
    BLAST, giúp em với !

    Em rất muốn tìm hiểu về BLAST và ứng dụng của nó, nhưng quả là rất vất vả vì nhiều khi chương trình đưa ra khá nhiều kết quả và những đánh giá, mà người mới bắt đầu sử dụng như em cảm thấy rất khó để hiểu hết được.


    Ví dụ khi em search một đoạn oligonucleotide bằng BLAST trong Human genebank, kết quả thu được như sau:

    BLASTN 2.2.9 [May-01-2004]

    Reference:
    Altschul, Stephen F., Thomas L. Madden, Alejandro A. Schäffer,
    Jinghui Zhang, Zheng Zhang, Webb Miller, and David J. Lipman (1997),
    "Gapped BLAST and PSI-BLAST: a new generation of protein database search
    programs", Nucleic Acids Res. 25:3389-3402.

    RID: 1088951985-5721-152419057209.BLASTQ4

    Query=
    (21 letters)


    Database: GenBank Human EST entries
    5,653,964 sequences; 3,016,086,637 total letters


    gi|27832161|emb|BX103043.1|BX103043 BX103043 NCI_CGAP_GCB1 Homo sapiens cDNA clone IMAGp998K122037 ;
    IMAGE:824579.
    Length = 692

    Score = 32.2 bits (16), Expect = 2.4
    Identities = 16/16 (100%)
    Strand = Plus / Minus


    Query: 2 cagttgatgctttgct 17
    ||||||||||||||||
    Sbjct: 366 cagttgatgctttgct 351
    >gi|22518440|gb|BU077251.1|BU077251 in19a03.y1 Human Fetal Pancreas 1B Homo sapiens cDNA clone IMAGE:
    5'''' similar to TR:Q9UF27 Q9UF27 HYPOTHETICAL 46.4 KD
    PROTEIN ;.
    Length = 577

    Score = 32.2 bits (16), Expect = 2.4
    Identities = 16/16 (100%)
    Strand = Plus / Minus


    Query: 2 cagttgatgctttgct 17
    ||||||||||||||||
    Sbjct: 372 cagttgatgctttgct 357
    >gi|10724243|dbj|AV706971.1|AV706971 AV706971 ADB Homo sapiens cDNA clone ADBCRB07 5''''.
    Length = 652

    Score = 32.2 bits (16), Expect = 2.4
    Identities = 16/16 (100%)
    Strand = Plus / Minus


    Query: 2 cagttgatgctttgct 17
    ||||||||||||||||
    Sbjct: 326 cagttgatgctttgct 311

    ..............................

    Database: GenBank Human EST entries
    Posted date: Jul 3, 2004 6:34 PM
    Number of letters in database: 1,697,659,032
    Number of sequences in database: 3,677,722

    Lambda K H
    1.37 0.711 1.31

    Gapped
    Lambda K H
    1.37 0.711 1.31


    Matrix: blastn matrix:1 -3
    Gap Penalties: Existence: 5, Extension: 2
    Number of Hits to DB: 5413
    Number of Sequences: 17639675
    Number of extensions: 5413
    Number of successful extensions: 5405
    Number of sequences better than 10.0: 15
    Number of HSP''''s better than 10.0 without gapping: 15
    Number of HSP''''s successfully gapped in prelim test: 0
    Number of HSP''''s that attempted gapping in prelim test: 1687
    Number of HSP''''s gapped (non-prelim): 15
    length of query: 44
    length of database: 3,016,086,637
    effective HSP length: 17
    effective length of query: 4
    effective length of database: 2,919,969,249
    effective search space: 11679876996
    effective search space used: 11679876996
    T: 0
    A: 0
    X1: 6 (11.9 bits)
    X2: 15 (29.7 bits)
    S1: 12 (24.3 bits)
    S2: 15 (30.2 bits)


    Nhiêu đó thôi, nhưng em chưa hiểu lắm, và chưa biết cách đọc những thông tin nói trên. Hy vọng trong Box có ai đó bớt chút thời gian giúp đỡ em.

    Discontiguous megablast , megablast và Nucleotide-nucleotide BLAST (blastn) khác nhau như thế nào ạ ?
  2. thht

    thht Thành viên quen thuộc

    Tham gia ngày:
    12/05/2002
    Bài viết:
    557
    Đã được thích:
    0

    Mong được sự giúp đỡ của các anh chị !
  3. weirdhobbit

    weirdhobbit Thành viên quen thuộc

    Tham gia ngày:
    19/05/2002
    Bài viết:
    165
    Đã được thích:
    0
    BLAST là một công cụ rất hữu dụng nhưng cũng khá khó hiểu cho đến nơi đến chốn về nó vì nó dựa trên nền tảng của các lý thuyết về xác suất-thống kê và giải thuật. Tôi chỉ dám chia sẻ với bạn một số điều để có thể hiểu đại khái cái kết quả đó là gì thôi.
    Một bảng kết quả của BLAST thường gồm 4 phần:
    - Phần minh họa (graphic display)
    - Danh sách các trình tự tìm được (hit list): tên của trình tự giống với trình tự của bạn, xếp theo mức độ giống nhau
    - Alignment:
    - Các tham số đã dùng
    ---------------------------------------------------------------------------------------
    Query: 2 cagttgatgctttgct 17
    | | | | ||||||||||||
    Sbjct: 372 cagttgatgctttgct 357
    >gi|10724243|dbj|AV706971.1|AV706971 AV706971 ADB Homo sapiens cDNA clone ADBCRB07 5''''.
    Length = 652
    Score = 32.2 bits (16), Expect = 2.4
    Identities = 16/16 (100%)
    Strand = Plus / Minus
    --------------------------------------------------------------------------------------
    Đoạn trích ở trên là phần Alignment trong bảng kết quả BLAST của bạn. Ba hàng đầu là phần align với trình tự của bạn (query)ở hàng đầu, từ nucleotide số mấy đến số mấy, hàng thứ 2, mỗi gạch tượng trưng cho sự giống nhau hoàn toàn của một nt giữa hai trình tự được align. Dòng thứ 3 là đoạn trình tự trên database giống với query với vị trí nt hai đầu.
    Hàng kế là các thông tin về trình tự tìm được, gi number, accession number, mô tả về trình tự, độ dài của trình tự
    Ba hàng kế tiếp là các giá trị thống kê về phần align ở trên
    Score (bit score): cho biết độ tin cậy về mặt thống kê của phần align, bit score càng lớn thì hai trình tự càng giống nhau. Thông thường các cặp align có bit score nhỏ hơn 50 là không đáng tin cậy. Tuy nhiên, trong trường hợp của bạn, vì trình tự của bạn là một đoạn oligo chỉ có 21 nt nên bit score không thể cao được.
    E-value (kì vọng): ước lượng số lần mà bạn có thể ngẫu nhiên gặp một cặp align có cùng score như trên trong cùng database. E-value càng nhỏ thì hai trình tự càng tương tự nhau và độ tin cậy càng cao. Thường E-value nên nhỏ hơn 0.0001. Một lần nữa, vì đoạn trình tự của bạn quá ngắn nên E-value của bạn sẽ cao (dễ dàng tình cờ tìm được một đoạn trình tự 21nt giống trình tự của bạn hơn là một đoạn trình tự 1000nt trong genebank!!!)
    Identities: Phần trăm giống nhau (giống hoàn toàn chứ không phải là tương tự)
    Strand: hai trường hợp Plus/Plus và Plus/Minus
    Plus: trình tự theo đúng như chiều trong file FASTA
    Minus: trình tự bổ sung-ngược chiều (reverse-complement) với trình tự trong file FASTA
    Tương tự (similarity) và tương đồng (homology):
    Mức độ tương tự giữa hai trình tự càng cao thì càng có khả năng là hai trình tự đó tiến hóa từ một tổ tiên chung và có thể có cấu trúc 3-D giống nhau. Ta gọi hai trình tự đó là homologue (trình tự tương đồng). Thông thường trình tự tương đồng có chức năng sinh hóa tương tự nhau.
    Tuy nhiên, khi so sánh hai trình tự, mức độ tương tự nhau đến cỡ nào thì nó trở thành homologues???? Xét trên trình tự có độ dài từ 100 đơn vị trở lên, cần có 25% số amino acid giống nhau giữa hai trình tự protein, và cần 70% số nucleotide giống nhau đối với DNA
    MEGABLAST, Discontiguos-MEGABLAST, blastn:
    Megablast được thiết kế đặc biệt để tìm đoạn alignment dài giữa hai trình tự rất tương tự nhau và vì thế tốt nhất là ứng dụng để để định danh trình tự của bạn (tìm ra trình tự y hệt trên genebank)
    Discontiguos-MEGABLAST dùng để tìm những trình tự tương tự (similar), nhưng không y hệt (identical) với trình tự của bạn.
    blastn nhạy hơn MEGABLAST trong việc tìm các trình tự tương tự(có liên quan, họ hàng, chứ không phải giống y hệt), nhưng lại không nhạy bằng Discontiguos-MEGABLAST.
    "Search for short, nearly exact matches" dùng cho trường hợp primer hay các đoạn nucleotide ngắn.
    Xem thêm:
    http://www.ncbi.nlm.nih.gov/BLAST/tutorial/Altschul-1.html#head11
    http://www.ncbi.nlm.nih.gov/BLAST/blast_FAQs.shtml
    http://www.ncbi.nlm.nih.gov/BLAST/producttable.shtml
  4. mihn

    mihn Thành viên mới

    Tham gia ngày:
    01/07/2004
    Bài viết:
    22
    Đã được thích:
    0
    Tuy nhiên, khi so sánh hai trình tự, mức độ tương tự nhau đến cỡ nào thì nó trở thành homologues???? Xét trên trình tự có độ dài từ 100 đơn vị trở lên, cần có 25% số amino acid giống nhau giữa hai trình tự protein, và cần 70% số nucleotide giống nhau đối với DNA
    ---------------------
    Bác weirdhobbit, Bác có sure với nhưng nhận xét trên không? Tui thì thấy rằng chưa có quy luật nào chính xác cho trường hợp homologue này đâu.
  5. weirdhobbit

    weirdhobbit Thành viên quen thuộc

    Tham gia ngày:
    19/05/2002
    Bài viết:
    165
    Đã được thích:
    0
    Để xác định homologue tôi nghĩ là phải cần thêm nhiều thông tin hơn là chỉ có con số phần trăm đơn giản như trên. Con số trên chỉ là một điều kiện gợi ý để nếu hai trình tự đạt được con số trên thì nên nghĩ đến homologue... Có lẽ tôi không làm rõ được ý này trong bài viết nên làm bác mihn thắc mắc, cám ơn đóng góp của bác!
    Nhận xét trên là tôi lấy từ trong cuốn "Bioinformatics for Dummies" của Jean-Michel Claverie và Cedric Notredame. Tôi không phải là dân chuyên nghiệp trong việc so sánh xác định sự homology giữa các trình tự nên sách khuyên thế nào tôi đành nghe thế ấy. Việc tranh cãi chỉ tiêu cụ thể thế nào mới được gọi là homology tôi xin nhường lời cho các bác chuyên về bioinformatics.
  6. mihn

    mihn Thành viên mới

    Tham gia ngày:
    01/07/2004
    Bài viết:
    22
    Đã được thích:
    0
    Bioinformatics có nhiều cái hay lắm. Mà hình như box này ít có ai quan tâm đến nó. Dạo này chỉ thấy mục "Quảng cáo sách" của Huy Nguyễn là thường xuyên nhất.... Chán!
  7. weirdhobbit

    weirdhobbit Thành viên quen thuộc

    Tham gia ngày:
    19/05/2002
    Bài viết:
    165
    Đã được thích:
    0
    Mỗi người có một mối quan tâm và lãnh vực chuyên môn riêng bác ạ, biết sao được khi đây là box chung cho toàn bộ dân Sinh học (chứ không chỉ CNSH), tính về phần trăm số người VN làm về bioinformatics đã là ít ỏi rồi, huống chi tính số người làm về nó và vô box này sinh hoạt chứ.
    Trình độ của tôi thì chỉ dám đọc những cuốn "for dummies" thôi. Hồi bữa nhân nhắc đến BLAST cũng thử lôi cuối BLAST của Ian Korf ra đọc thử, cứ một khúc chữ là một khúc script của perl, rồi dòng lệnh đầy những % # gì gì đó nhìn khủng hoảng quá nên thôi, chấp nhận trình độ dummies của mình vậy, để mấy bác chuyên về bioinformatics "vọc" những nồi lẩu script kia đi, còn mình đành ngồi mát ăn bát vàng đợi các bác làm xong, đưa về giao diện người dùng "for dummies" thì mình xài... sướng!!!!
  8. ConCay

    ConCay Thành viên mới

    Tham gia ngày:
    18/02/2003
    Bài viết:
    950
    Đã được thích:
    0
    Tôi đây, đang làm về homologous, chính xác công việc của tôi thế này:
    - đọc trình tự 1 gene của 28 loài khác nhau
    - xác định mức độ tương đồng, tương cận của chúng
    - từ đó xác định cây phả hệ hay gọi là phylogeny của những loài này; có so sánh với morphology và những nghiên cứu trước để coi kết quả của mình giống hay khác với người ta; nếu khác thì mình có ý kiến (giả thuyết gì) mới không.
    (dĩ nhiên là xài bioinformatics)
    Tiếp đến là tôi làm cái bản đồ giới hạn hoặc bản đồ di truyền của 3/28 loài quan tâm để củng cố giả thuyết ở bước trên.
    Nói chung là tôi gặp nhiều về cái gọi là the same, similar rồi homologous theo đúng ngữ nghĩa tiếng ANH. Tôi biết có những tài liệu, sách báo nào cần thiết để đọc từ cơ bản cho đến nâng cao; từ người mới bắt đầu cho đến kẻ chuyên nghiệp.
    Nhưng cơm áo gạo tiền vẫn là trên hết, vì vậy phải lo đi quảng cáo cho Huy Nguyễn để có tiền mà sống chứ.
    Viết mấy vấn đề theo kiểu "phổ cập hóa" hay "xoá mù" vốn là một niềm vui của tôi trước đây, nhưng thời gian dần trôi, làm việc với box cộng thêm nổi khổ nổi cơm gạo gạo tiền nó đè nặng quá, đành gác thú vui tao nhã này lại. Sau này có ai đó đặt hàng tôi viết (tức là có trả nhuận bút đàng hoàng) chắc chắn tôi sẽ lao tâm khổ trí mà làm cật lực.
  9. Tem

    Tem Thành viên mới

    Tham gia ngày:
    13/04/2004
    Bài viết:
    176
    Đã được thích:
    0
    Mỗi người một chuyên môn, nên có thể nhiều khi có "rượu ngon" nhưng chưa gặp bạn hiền, đành phải kiên nhẫn chờ đợi vậy.
    Mỗi cá nhân tham gia box đều có mong muốn được "phổ cập" hay "xoá mù", bởi vậy nên hễ khi có câu hỏi, thắc mắc, vấn đề cần giải đáp thì người biết nhiều nói cho người biết ít, người biết ít chỉ cho người biết ít hơn. Có như thế mới tạo được không khí sinh hoạt học thuật lành mạnh cho box.
  10. ConCay

    ConCay Thành viên mới

    Tham gia ngày:
    18/02/2003
    Bài viết:
    950
    Đã được thích:
    0
    Thì đấy, có ai cấm chuyện phổ cập, xoá mù đâu, xin mời.

Chia sẻ trang này