1. Tuyển Mod quản lý diễn đàn. Các thành viên xem chi tiết tại đây

Phương pháp phân loại số học và Phylogenetic tree

Chủ đề trong 'Công nghệ Sinh học' bởi Odonata, 23/07/2004.

  1. 1 người đang xem box này (Thành viên: 0, Khách: 1)
  1. Odonata

    Odonata Thành viên quen thuộc

    Tham gia ngày:
    29/07/2002
    Bài viết:
    175
    Đã được thích:
    1
    Phương pháp phân loại số học và Phylogenetic tree

    Sau một thời gian đi công tác và làm báo cáo, hôm nay tôi mới có dịp trở lại diễn đàn, thật tiếc là tôi đã không đọc được bài viết nào mang tính chuyên môn và thú vị cả. Tôi không có ý kiến gì về việc này. Tuy nhiên, nhân thể khi đọc một bài viết nào đó về Phương pháp xác định mức độ tương đồng để xác định và thiết lập phylogenetic tree của bạn nào đó post gầy đây. Tôi có ý định viết một bài về nguồn gốc, bản chất và những ứng dụng của phương pháp này. Mặc dù đây là một phương pháp khá phổ biến và được dùng thường xuyên bởi những người làm phân loại sinh học dựa theo các phân tích DNA nhưng không phải ai cũng am hiểu thật sự về bản chất của nó.
    Thật ra đây là một trong những phương pháp xuất hiện khá sớm và thường được đề cập rất chi tiết trong các giáo trình phân loại học cơ sở. Tuy nhiên tôi chưa hề được đọc bất cứ một tài liệu tiếng Việt nào về phương pháp này và cũng vì môn Nguyên lý phân loại học mới được giảng dạy trở lại ở một số trường ĐH gần đây nên việc ít người biết đến hoặc quan tâm đến cũng là điều dễ hiểu. Vậy nên tôi đã quyết định post chủ đề này lên diễn đàn.
    Phương pháp so sánh mức độ tương đồng dùng trong xây dựng cây phân loại dựa theo các phân tích DNA thực chất là Phương pháp tính khoảng cách (Distance methods) được Solkan đề xuất lần đầu vào năm 1973. Phương pháp phân loại bằng toán học thuần tuý, theo hiện trạng vật mẫu nghiên cứu, khi mới ra đời được goi là Numerical phenentic, gần đây thường gọi là phương pháp khoảng cách. Trường phái phân loại này chủ trương phân loại theo phương pháp dùng tất cả các đặc điểm phân loại quan sát trên hiện trạng vật mẫu nghiên cứu, không cần phân tích ý nghĩa hoặc so sánh giá trị phân loại của các đặc điểm. Sử dụng càng nhiều đặc điểm càng nhiều càng tốt , (theo các tác giả thì từ 50 -100 số liệu là thích hợp) để xác định mức độ giống nhau (hoặc khác nhau) giữa các đơn vị nghiên cứu. Phương pháp này cho phép so sánh khách quan và chính xác các đơn vị tính toán phân loại (Operational Taxonomic Unite = OTU), tương đối giống nhau khó phân biệt. Trong nhiều năm gần đây phương pháp này được dùng nhiều trong các nghiên cứu so sánh DNA? Vậy thật sự phương pháp đó là gì, nó có thật là phức tạp như người ta vẫn thường nghĩ về nó hay không? Ứng dụng của IT trong việc tính toán sử dụng phương pháp này thế nào?
    Bây giờ, tôi sẽ đi sâu hơn vào bản chất của phương pháp này. Mục đích của phương pháp khoảng cách là tìm ra mức độ giống nhau giữa các đối tượng thuộc một nhóm các đối tượng (chúng ta hãy cùng nhau xem xét bài toán ở vị trí không phải là những nhà Sinh vật mà là những nhà Toán học để hiểu vấn đề đơn giản và dễ dàng hơn, bản thân Solkan cũng không phải là một nhà Sinh vật và mục đích của ông là toán học hóa công việc của nhà phân loại). Ông xem xét các đối tượng thông qua các đặc điểm, mỗi đặc điểm được phân thành các trạng thái, các trạng thái được mã hóa thành số (0, 1, 2, 3, 4?). Như vậy ông có một dãy các đối tượng cần so sánh, mỗi đối tượng lại có n đặc điểm và mỗi đặc điểm thì lại được gán một giá trị nào đó tương ứng với các trạng thái mà nó có.
    Bước tiếp theo là tính toán hệ số Manhhattan, gọi như vậy vì khoảng cách giữa các đơn vị tính toán (đối tượng so sánh) tương tự như khoảng cách giữa các góc của của các ngôi nhà hộp ở thành phố Manhattan (thành phố nhà hộp, Mỹ). Trước tiên, chúng ta hãy xem xét việc so sanh giữa các đối tượng so sánh. Việc đầu tiên cần làm đó là xây dựng các cặp đối tượng so sánh sao cho một đối tượng được so sánh theo cặp với tất cả các đối tượng còn lại (giống với thi đấu vòng loại trong bóng đá vậy). Sau khi có các cặp so sánh, cần xác định hệ số Manhhattan giữa các cặp này. Hệ số được tính rất đơn giản: bằng giá trị tuyệt đối của tổng của hiệu 2 trạng thái ứng với 2 đặc điểm. Sẽ dễ dàng hơn nếu tôi type được công thức ở đây, tuy nhiên tôi cũng hy vọng là bạn có thể dễ dàng hình dung được công thức này dưới dạng diễn đạt văn xuôi vì nó cũng không quá phức tạp.
    Bước tiếp theo là thành lập ma trận chứa các hệ số Manhhattan, vậy là chúng ta có các cặp so sanh được biểu thị bằng các hệ số khoảng cách Manhhattan, và sẽ dễ hình dung hơn khi ta sắp xếp dãy các đặc điểm này vào hai cạnh kề nhau của một hình vuông. Ta sẽ có một ma trận với 2 cạnh kề nhau kể trên giống hệt nhau về các đối tượng. Giá trị ở điểm giao nhau của các đặc điểm là hệ số khoảng cách Manhhattan. Điều dễ nhận thấy là các điểm thuộc đường chéo của hình vuông (đường chéo chứa các điểm giao nhau của các giá trị giống nhau) sẽ không có giá trị (do chúng ta không tự so sánh 1 đối tượng với chính nó). Đơn giản hơn, nếu xác định toạ độ của các hệ số Manhhattan nào đó, nó sẽ được biểu thị bằng giá trị (đối tượng a; đối tượng b) và nó thể hiện khoảng cách về mức độ tương đồng giữa hai đối tượng a và b.
    Khi đã có ma trận, cần xác định tiếp các cụm so sánh cấp 1, đó là những cặp so sánh gồm 2 đối tượng có hệ số Manhhattan nhỏ nhất. Tương tự, các cụm so sánh cấp 2 sẽ là giá trị nhỏ nhất của giá trị trung bình thuộc cặp đối tượng cấp 1 với nhau hoặc với các đối tượng không thuộc cụm cấp 1. Cứ như vậy người ta xác định được hết các cụm so sánh cấp tiếp theo. Cuối cùng thì sẽ thu được một phenogram mà chính là các cây phân loại học khi chạy các chương trình phân tích kết quả điện di DNA.
    Những mô tả ở trên sẽ đơn giản hơn nhiều nếu tôi có thể type công thức và sử dụng hình vẽ, tuy nhiên tôi cũng hy vọng là bạn sẽ hiểu được vấn đề. Vì rằng Phương pháp này được đề xuất từ rất sớm nên nó cũng không phức tạp như bạn tưởng, thậm chí nó khá đơn giản và với số lượng ít các đối tượng bạn hoàn toàn có thể tính toán thủ công mà vẫn có kết quả như ý.
    Vậy IT đã giúp cho chúng ta tính toán từ công đoạn nào? Nếu bạn xét lại toàn bộ quá trình tính toán, bạn sẽ thấy sau khi bạn mã hóa cho các thuộc tính của các đặc điểm thì công việc còn lại máy tính có thể làm được. Và phần mềm để tính toán này cũng không quá phức tạp hay cao siêu gì cả, với một người có chút ít hiểu biết lơ mơ về lập trình như tôi thì cũng có thể nhận thấy việc viết một chương trình như vậy không phải là một bài toán khó. Nó thậm chí còn đơn giản hơn cả những chương trinhg game đơn giản mà lâu nay người ta không còn chơi nữa (tôi có thể so sánh nó với chương trình chơi cờ caro, thậm chí thuật toán còn đơn giản hơn nhiều). Vậy nếu giả sử tôi có một máy scan có thể quét và nhận dạng các ảnh của các bản điện di DNA thì rõ ràng khi kết hợp với một phần mềm tính toán hệ số và thành lập ma trận Manhhattan như vậy sau khi mã hóa các vạch thì chúng ta đã có một máy đọc gen di truyền. Công việc của các nhà phân loại dựa trên phân tích DNA chỉ còn là việc chạy điện di. Mặc dù chưa một lần nhìn thấy hoặc thao tác trên bất cứ một máy đọc gen nào nhưng tôi cũng đoán lơ mơ là nó đã hoạt động như thế (tôi chỉ suy đoán từ những hiểu biết của tôi, và tôi nghĩ rằng mình không đoán sai, hơn nữa tôi đã trình bày khá rõ bán chất của vấn đề).
    Tóm lại phương pháp khoảng cách chính là phương pháp mà các bạn đang sử dụng để so sánh mức độ giống nhau của DNA, và nguyên lý của nó thì tôi đã trình bày chi tiết ở trên). Nó có từ rất sớm không phải để phục vụ việc so sánh DNA mà lại dùng để phân loại sinh vật dựa trên các đặc điểm hình thái. Nhưng sau đó do tính bất hợp lý về việc đánh đồng giá trị các đặc điểm của đối tượng so sành mà nó không được chấp nhận trong phân loại học thời bấy giờ (có thể thấy điều này rất dễ dàng khi xem xét ví dụ về so sánh mầu sắc của 2 côn trùng với so sánh cấu tạo cơ quan sinh sản của 2 nhóm này, hiển nhiên là giá trị về màu sắc ít có ý nghĩa hơn nhiều vì ở côn trùng, mầu sắc giữa con đực và con cái của cùng loài trong nhiều trường hợp khác biệt nhau rất lớn nên không thể coi sự khác biệt về 2 đặc điểm này là như nhau được). Ở đây cần phải nói thêm, ngay cả việc các DNA tương đồng, nhưng khi so sánh DNA, không phải mức độ giống nhau ở các đoạn cũng như nhau (hiểu đơn giản là cũng có những vấn đề khi so sánh DNA tương tự với các vấn đề so sánh các đặc điểm hình thái, vì còn rất nhiều vấn đề đối với những đoạn DNA có ý nghĩa và khôgn có ý nghĩa, chưa kể tới các gen nhảy hoặc một đoạn DNA có thể cho ra nhiều các loại protein khác nhau, việc sử dụng DNA làm cơ sở trong phân loại khi so sánh thật ra vẫn còn có một số vấn đề chưa hoàn toàn sáng tỏ).
    Vậy những ứng dụng khác của phương pháp khoảng cách là gì, thông thường hiện nay, phương pháp này gần như được các nhà phân loại dựa trên sự khác biệt về DNA coi là phương pháp của riêng mình. Mặc dù các nhà công nghệ thậm chí vẫn chẳng hiểu rõ bản chất của nó nhưng vẫn có thể áp dụng nó thông qua các chương trình phân tích có sẵn và vẫn có được kết quả như ý. Đây cũng là điểm khác biệt khá căn bản giữa những người chỉ quan tâm đến ứng dụng và những người có kiến thức cơ bản.
    Nhưng trong thực tế, nếu hiểu rõ bản chất của phương pháp này, người ta đã ứng dụng nó trong rất nhiều trương hợp, như tính toán mức độ khác nhau về sự đa dạng sinh vật ở các vùng khác nhau, so sánh các vùng dịch tễ học cóc các đặc điểm khác nhau, so sánh các khu hệ sinh vật khác nhau trong bảo tồn tự nhiên hay đơn giản chỉ là tính khoảng cách giữa các toàn nhà hộp tại Manhhattan như người ta đã làm trong quá khứ.
    Đền đây thì tôi xin kết thúc bài viết của mình, và cũng vì nó quá dài, tôi cũng rất vui lòng được giải đáp hoặc trao đổi thêm với ai có mối quan tâm đến phương pháp này.
  2. damdan

    damdan Thành viên mới

    Tham gia ngày:
    17/07/2004
    Bài viết:
    22
    Đã được thích:
    0
    Bài của bác Odonata hay quá, đúng thứ mà tôi đang cần, hi vọng sẽ được trao đổi kỹ hơn về vấn đề này.
  3. ConCay

    ConCay Thành viên mới

    Tham gia ngày:
    18/02/2003
    Bài viết:
    950
    Đã được thích:
    0

    Phương pháp tính khoảng cách (Distance methods) được Solkan đề xuất lần đầu vào năm 1973. Phương pháp phân loại bằng toán học thuần tuý, theo hiện trạng vật mẫu nghiên cứu, khi mới ra đời được goi là Numerical phenentic, gần đây thường gọi là phương pháp khoảng cách. Trường phái phân loại này chủ trương phân loại theo phương pháp dùng tất cả các đặc điểm phân loại quan sát trên hiện trạng vật mẫu nghiên cứu, không cần phân tích ý nghĩa hoặc so sánh giá trị phân loại của các đặc điểm. Sử dụng càng nhiều đặc điểm càng nhiều càng tốt , (theo các tác giả thì từ 50 -100 số liệu là thích hợp) để xác định mức độ giống nhau (hoặc khác nhau) giữa các đơn vị nghiên cứu. Phương pháp này cho phép so sánh khách quan và chính xác các đơn vị tính toán phân loại (Operational Taxonomic Unite = OTU), tương đối giống nhau khó phân biệt. Trong nhiều năm gần đây phương pháp này được dùng nhiều trong các nghiên cứu so sánh DNA?
    Đọc từng câu thì không sai, nhưng cả đoạn thì lại không hợp logic. Phải hiểu là để phân loại SV người ta có nhiều các chọn lựa cơ sở dữ liệu, mà dữ liệu cổ điển là morphology. Hiện nay người ta dang sử dụng cơ sở dữ liệu là DNA. Do vậy phải nói là "trong nhiều năm gần đây người ta kết hơp cở sở dữ liệu DNA và các phương pháp toán học để phân loại sinh vật". Vệc nghiên cứu so sánh DNA không nhất thiết phải cho ra kết quả phân loại (xem giải thích ở dưới); do vậy người ta có thể áp dụng nhiều pp khác nhau để đi đến mục đích cuối cùng; chỉ khi cần phân loại SV bằng DNA thì người ta mới có thể áp dụng pp khoảng cách, tức là DNA là database của phép phân tích này. Hoặc nói ngược lại là trong pp khoảng cách người ta có thể dùng nhiều dạng database, thì DNA trở thành một dạng database được ưa chuộng.
    Ví dụ tôi so sánh hai gene HSP70 của chuột và người để coi đoạn nào mà chúng bảo tồn nghiêm ngặt nhất, từ đó tôi chọn 1 vùng thích hợp chừng 25 nu để thiết kế đoạn RNAi, đoạn RNAi này tương thích vừa dùng cho chuột lẫn người vì thế khi thí nghiêm trên chuột cũng sẽ cho kết quả tương tự nếu làm trên người. Vậy việc phân tích DNA này chẳng cần dùng đến pp khoảng cách làm gì.
    Tóm lại phương pháp khoảng cách chính là phương pháp mà các bạn đang sử dụng để so sánh mức độ giống nhau của DNA, và nguyên lý của nó thì tôi đã trình bày chi tiết ở trên
    Câu kết này đọc lướt qua thì không sai, nhưng đọc kỹ sẽ thấy có vấn đề vì việc phân tích sự giống nhau, khác nhau trình tự DNA không nhất thiết phải dựa trên pp khoảng cách vì còn nhiều pp khác. Nếu chỉ để so sánh sự giống nhau về trình tự DNA thì ko cần đến pp khoảng cách mà phải nói là nếu muốn phân tích trình tự DNA để có được cây phân loại thì có thể dùng pp khoảng cách. . Ví dụ PP đơn giản nhất là alignment sẽ cho ra thấy ngay mức độ giống hay khác nhau của hai gene tương ứng là bao nhiêu %
    Ở đây cần phải nói thêm, ngay cả việc các DNA tương đồng, nhưng khi so sánh DNA, không phải mức độ giống nhau ở các đoạn cũng như nhau (hiểu đơn giản là cũng có những vấn đề khi so sánh DNA tương tự với các vấn đề so sánh các đặc điểm hình thái, vì còn rất nhiều vấn đề đối với những đoạn DNA có ý nghĩa và khôgn có ý nghĩa, chưa kể tới các gen nhảy hoặc một đoạn DNA có thể cho ra nhiều các loại protein khác nhau, việc sử dụng DNA làm cơ sở trong phân loại khi so sánh thật ra vẫn còn có một số vấn đề chưa hoàn toàn sáng tỏ).
    Tác giả viết đoạn này e là tác giả chưa hiểu nguyên tắc, nguyên lý của việc chọn gene, cụm gene hay đoạn DNA làm cơ sở dữ liệu phân tích.
    Nếu tác giả bài này nếu muốn giới thiệu pp khoảng cách như là 1 pp toán học trong đó sử dụng DNA là cơ sở dữ liệu để phân loại SV thì chưa đủ vì còn nhiều pp khác cũng dựa trên nền tảng toán học và DNA database để phân loại SV.
    Nếu tác giả muốn nói rằng việc so sánh phân tích trình tự DNA có thể áp dụng pp khoảng cách thì cũng chưa đầy đủ và không chính xác vì việc phân tích trình tự DNA phải có mục đích rõ ràng mới chọn PP phân tích phù hợp mà pp khoảng cách chỉ là 1 pp nhỏ có thể áp dụng bên cạnh nhiều pp khác.
    Nếu tác giả muốn nhấn mạnh có thể kết hợp pp khoảng cách và trình tự DNA để phân loại thì e rằng cũng chưa đầy đủ vì còn hàng loạt vấn đề phải đặt ra, ví dụ như các câu hỏi sau:
    01- Ngoài pp khoảng cách (distance method) thì người ta còn pp nào nữa không để phân tích (phân tích hiểu theo nghĩa rộng là phân loại sinh vật theo các dữ liệu sinh học phân tử, hình thái, sinh lý, sinh hóa)? Và pp nào là tối ưu nhất, được sử dụng nhiều nhất? Hay chỉ có mỗi pp khoảng cách?
    02- Phần mềm, sofware, nào được áp dụng để giúp phân tích mà theo tác giả là dễ viết hơn cả 1 software trò chơi?
    03- Tác giả chưa cho biết là để chạy với software phân tích thì thời gian tiêu tốn là khoảng bao nhiêu?
    04- Xin cho biết tài liệu nào nói Solkan là cha đẻ của pp khoảng cách?
    05- Tác giả có thể cho biết là tại sao việc dùng DNA làm database trong phân loại vẫn còn nhiều điều chưa sáng tỏ? Theo tác giả đó là những điểm nào? Vậy ngoài DNA database thì còn loại database nào có thể áp dụng vào phân tích mà không có những vấn mơ hồ, không sáng tỏ không?
    ============================
    Đọc thêm những quyển sau để hiểu những gì đã viết
    Molecular Systematics, Second E***ion
    e***ed by David M. Hillis, University of Texas at Austin,
    Craig Moritz, University of California, Berkeley, and
    Barbara K. Mable, University of Guelph
    Published: 1996
    Publisher: Sinauer Associates Inc
    Molecular Evolution: A Phylogenetic Approach
    By: Roderic D. M. Page, Edward C. Holmes
    Published: October 1998
    Publisher: Blackwell Science Inc
    Phylogenetics Trees Made Easy: A How-To Manual for Molecular ...
    By: Barry G. Hall
    Published: March 2001
    Publisher: Sinauer Associates Inc
    Molecular Evolution
    By: Wens-Hsiung Li
    Published: 1997
    Publisher: Sinauer Associates Inc
    Được concay sửa chữa / chuyển vào 00:36 ngày 25/07/2004
  4. Odonata

    Odonata Thành viên quen thuộc

    Tham gia ngày:
    29/07/2002
    Bài viết:
    175
    Đã được thích:
    1
    1. Ở đây tôi chỉ bàn đến phương pháp khoảng cách dùng trong phân loại học, bản thân tôi không chỉ dựa vào phương pháp này để phân loại nên tôi hiểu rất rõ các phương pháp khác có thể được dùng trong phân loại. Tuy nhiên lúc khác tôi sẽ nói tới nếu bạn thật sự muốn nghe. Hơn nữa đây không phải là một bài báo nên việc trả lời kiểu thẩm vấn như vậy, tôi không thấy thoải mái, vì bạn chẳng là gì cả! Bạn có chắc là bạn hiểu gì về các nguyên tắc của phương pháp phận loại dựa trên hình thái, sinh thái hay sinh lý? Không ai có thể toàn vẹn đến mức độ chi tiết như vây! Nếu bạn nghĩ bạn là một nhà phân loại toàn vẹn có thể áp dụng tất cả các quan điểm dưới mọi góc nhìn để phân loại, bạn đã bao giờ tiến hành những nghiên cứu ngoài thực địa? Tìm hiểu các mối quan hệ khắt khe giữa các quần hệ sinh vật? Các nguyên nhân và yếu tố môi trường tác động đến các taxon phân loại mà bạn quan tâm? Các quy luật sinh thái chi phối sự phân ly các quần hệ, các chủng quần dưới loài và nguyên nhân hình thành khi có các yếu tố môi trường tự nhiên tác động?
    2. Tôi không nói đến phầm mềm cụ thể nào cả, bạn đã không đọc kỹ bài viết của tôi, tôi chỉ nói về mức độ khó để có thể xây dựng một phần mêm như vậy, còn theo tôi, tôi không thấy có vấn đề gì về thuật toán. Tôi đã tự mình phân tích thủ công đê áp dụng cho việc so sánh 2 khu hệ sinh vật nên hiểu rất rõ các bước phải tiến hành. Tôi cảm thấy câu hỏi này của bạn không chỉ mang ý nghĩa của một câu hỏi.
    3. Tôi chưa bao giờ chạy phần mềm này và cũng không có ý định nói chính xác là nó sẽ mất thời gian bao lâu vì đó không phải là vấn đề tôi định bàn đến. Tôi thiết nghĩ nếu bạn biết thì cần gì hỏi tôi. Tôi thấy câu hỏi này không thiện chí và không phù hợp, tôi nghĩ nếu tôi có biết tôi cũng sẽ không đề cập tới trong bài này. Không khó nếu tôi cố tìm ra những phần mềm đó để dùng thử chúng, nhưng hiện tại tôi chưa phải sử dụng đến chúng.
    4. Tôi đã viết trong bài của tôi, tôi hiểu là như vậy thông qua các bài viết.
    Những dẫn liệu tôi sử dụng chủ yếu được trích từ:
    Principles of Systematic Zoology
    International E***on 1991
    Second E***ion
    By: Ernst Mayr
    McGraw-Hill
    Printed in Singapore
    Chapter 11: Numerical Methods of Phylogeny inference
    Các phần bình luận khác cho thấy bạn không hề thiện chí và tôi không thấy thái độ khiêm tốn mặc dù bản thân tôi cũng không cảm thấy bạn có thể nắm vững những khía cạnh phân loại với cách nhìn của những người làm phân loại như tôi. Tôi thừa nhận rằng tôi chưa bao giờ thử phân loại sinh vật dựa trên những cấp độ tế bào và nhỏ hơn nữa mà bạn đã đề cập. Nhưng không vì thế mà tôi cảm thấy tôi thiếu hoặc hiểu sai về nguyên lý của các phương pháp dùng trong phân loại.
    Các cái khác bạn tự tìm hiểu thêm ở tài liệu mà tôi đã giới thiệu. Còn nếu bạn muốn soi thêm những gì mà tôi đã viết thì tất nhiên tôi không cấm Tôi rất vui nếu bạn soi thêm được điều gì đó sai hoặc giúp tôi hiểu rõ hơn vấn đề. Đúng là có rất nhiều phương pháp để so sánh các đối tượng sinh vật về mức độ tương đồng như sử dụng chỉ số tương đồng Sorenson, mà những người làm phân loại và sinh thái học bọn tôi hay dùng, nhưng nó lại không cho ra được một phenogram (tôi đoán nếu bạn không làm về sinh thái học thì bạn cũng không biết, vậy thì có lý do gì bạn bắt tôi phải biết những phương pháp mà bạn đề cập tới, tât nhiên, nếu bạn thiện chí giới thiệu, tôi rất sẵn lòng học hỏi).
    Về nguyên tắc, nguyên lý của việc chọn gene, cụm gene hay đoạn DNA làm cơ sở dữ liệu phân tích quả thật là tôi cũng không biết thật, vì tôi cũng chưa thao tác trên gen bao giờ, nhưng tôi nghĩ những cái gì chung nhất tôi đã nắm được. Tất nhiên nếu bạn chịu khó chỉ bảo cho tôi thì tốt quá. Tôi cũng muốn được mở mang thêm đầu óc.
    Cám ơn bạn đã quan tâm "hết sức" như vậy!
    Cám ơn bạn đã "thò" ra mấy quyển sách đó cho tôi, quả thật nếu có điều kiện tôi cũng muốn đọc nó lắm.
  5. mihn

    mihn Thành viên mới

    Tham gia ngày:
    01/07/2004
    Bài viết:
    22
    Đã được thích:
    0
    Thưa 2 Bác Odonata và Bác Concay, tui đọc phần viết của 2 bác xong thì buồn cười quá. Hai bác đúng là nhưng "nghệ sĩ triết gia", nói chuyện gì mà chẳng ai hiểu nổi.
    Bác Odo thì thật là tốt bụng khi cố gắng dịch tài liệu và pót lên. Nhưng tiếc lá bác chưa hiểu kỹ hoặc là chưa làm qua phần phân loại này hay sao đấy (sorry, I''m not sure!) nên bác dịch nguyên xi mà lại không chính xác lắm. Với lại tài liệu tham khảo của bác từ năm 1991 (xin lỗi là hơi cũ một chút) lại không phải chuyên môn nên nội dung chỉ xoay quanh những vấn đề lịch sử mà chẳng nói rõ nguyên tắc (tui không biết là tui nhận xét đúng không vì hình như trong đầu tui nó hình dung cách xây dựng cây phân loại không đơn giản như bác nghĩ).
    Bác Concay thì thật tốt bụng hơn nữa, bác là người luôn cho mọi người no nê với những kiến thức mới cũng như những nhận xét "vặn vẹo" khiến người ta cũng phát ngán Bác". Những chổ Bác sửa lại thì hợp lý về mặt ý nghĩa sinh học. Nhưng Bác ơi, theo những gì mấy thầy dạy cho tui ở Trường thì tui nghĩ rằng
    các bác không nên chỉ dựa vào trình tự DNA mà phân loại mà phải dựa vào trình tự protein. Vì ở mức protein thì mức độ biến động đa dạng trình tự cũng đã bớt đi nhiều, chưa kể nó còn hạn chế mấy cái intron nằm nhan nhản trong các trình tự DNA của eukaryote (đấy chính là câu trả lời của bác concay hởi về database nào thay thế cho DNA database).
    Về việc sử dụng phương pháp xây dựng cây phân loại thì theo thiển ý của tui nghĩ nó chỉ mang nghĩa chính xác tương đối thôi. Chẳng hạn như cách alignment như bác concay nói khi dùng trên trình tự DNA chỉ là cách xây dựng một cây "quan hệ các trình tự", vì bản thân nó không cho ta biết được chính xác "loài" nào là tổ tiên của "loài" nào. Chuyện này tui cũng đã tự hỏi trước đây, làm sao mà chúng ta có thể phân loại được các loài khi chỉ dựa vào các đặc điểm trình tự hiện nay của loài, trong khi các loài đang tiếp tục tiến hoá theo hướng thích nghi với môi trường các bác nhỉ?
    Còn chuyện này tui muốn thưa luôn với các bác là các bác hãy để sân chơi này dành cho những người học về sinh học, đặc biệt là sinh viên. Các bác toàn đem chuyện chuyên môn (PhD, postdoc...) ra đây nói, rồi đem các tác giả của các cuốn sách ra "dọa nhau", rồi lại "góp ý" loại xạ những vấn đề không phải chuyên môn của mình làm cho SV chạy "mất dép". Càng ngày càng ít SV xem cái box này là nơi học tập, đơn giản vì nó chằng phải là forum để trao đổi kiến thức, mà cũng chẳng phải là tài nguyên để học tập. Người dốt như tui mà còn thấy nản khi vào trong này chỉ thấy mấy ông triết gia cãi nhau và quảng cáo sách (tui xin lỗi nhưng người không phải là triết gia) thấy phát chán (À nói luôn chuyện quảng cáo sách, các bác bên HNguyen kinh doanh vừa vừa thôi, làm quá có ngày công an kinh tế ở VN hỏi chuyện bản quyền thì gay go đấy vì theo tôi đa số sách này chui ra từ các thư viện ở ĐH ở nước ngoài)
    Tui cũng là người đi học, và tui biết ai cũng chỉ giỏi một lĩnh vực nào đó thôi. Giỏi như bác concay thì một ngày cũng chỉ đọc vài trăm trang sách lá cùng, mà có như thế thì bác cũng chỉ "cưỡi ngựa xem hoa" thôi, chứ cũng chẳng hiểu được tinh tuý sâu xa của nó đâu, chưa kể là bác chỉ đọc sách chứ không làm việc thực tế, đọc thế cả đời cũng chưa hết được kiến thức. Kiến thức chỉ là phương tiện thôi, nó chẳng mang lại lợi ích cho xã hội nếu Bác không dùng nó vào thực tiễn. Góp ý thêm như vậy và mong Bác concay đừng có "cố gắng nhiệt tình" quá người ta lại bảo bác là .... gàn thì nguy. Chỉ mong các bác cố gắng hiểu điều này để bọn tôi còn được nhờ. Chúc các bác khỏe để có sức... cãi nhau.
    Xin lỗi vì hôm nay tui không được vui nên nói nhiều quá. Nhưng cũng là ý kiến, mong mọi người chấp nhận thực hiện "nguyên tắc dân chủ và quyền tự do ngôn luận" đối với tui nhé.
  6. ires

    ires Thành viên mới

    Tham gia ngày:
    29/10/2003
    Bài viết:
    27
    Đã được thích:
    0
    Tôi không rành lắm về phân loại học và nhiều lúc cũng rất mơ hồ về những từ chuyên môn khó hiểu một cách không cần thiết. Tuy vậy, tôi cũng rất thích thú tìm hiểu về nó.
    Odonata đã nêu lên cơ sở toán học của phương pháp khoảng cách mà các nhà phân loại học thường dùng để dựng lên cây phân loại. Tôi đồng ý với cách giải thích của Odonata, với một sự hiểu biết là bác ấy không có tham vọng tóm lược hết tất cả những phương pháp khác cũng được dùng trong mục đích phân loại. Do đó, những đòi hỏi của Concay về những pp khác không có đề cập đến trong bài viết thì thật không công bằng cho Odonata.
    Tuy nhiên, việc "uốn nắn" của Concay về một câu của Odonata "Trong nhiều năm gần đây phương pháp [khoảng cách] này được dùng nhiều trong các nghiên cứu so sánh DNA? " là đúng, chứng tỏ rằng Concay đã đọc bài viết này dưới kính hiển vi! Tôi thì cho rằng ý của Odonata vẫn còn nằm trong bố cục của việc dựng cây phân loại bằng dử liệu DNA và bác ấy đã không có ý đi vào chi tiết. Nhưng khi Odanata kết luận là pp khoảng cách được dùng trong việc so sánh mức độ giống nhau của DNA thì cái này hoàn toàn không chính xác, và Concay đã chỉ ra điều này. Một thí dụ cụ thể là khi so sánh trình tự của DNA a (vd, AATGCC) và DNA b (vd, ACTGCT) thì ta chỉ cần đếm từng nucleotide thì vẫn biết là độ tương đông giữa DNA a và b là 4/6 hoặc khoảng 67%. Phương pháp khoảng cách chưa cần dùng ở đây. Nhưng khi muốn biết sự liên hệ (thí dụ về tiến hóa) giữa DNA a, DNA b, DNA c, và DNA x thì ta có thể dùng pp khoảng cách để tính sự gần gủi giữa những trình tự này.
    Việc Odonata có ý kiến về các nhà công nghệ chỉ biết ứng dụng các chương trình phần mềm có sẳn mà không cần biết những khái niệm tính toán của những chương trình này và đã làm cho họ khác xa những người có kiến thức "cơ bản" như Odonata thì có hơi quá đáng. Việc hiểu biết thủ thuật tính toán, hay còn gọi là algorithm, của các chương trình phần mềm dành cho sinh học là điều rất tốt, nhưng không phải nhà sinh học nào cũng có điều kiện để lãnh hội hết những kiến thức này. Biết bao nhiêu người đã dùng chương trình BLAST hay ALIGNMENT để so sánh DNA mà họ đâu có cần biết nguyên tắc tính toán của những chương trình này đâu, nhưng họ vẫn dùng nó để tiết kiệm thời giờ cho những câu hỏi trọng tâm hơn của họ. Phương pháp khoảng cách dùng trong cây phân loại (dendogram, clustering, ...) là một trong những pp cơ bản dể hiểu nhất nhưng nó luôn được dấu trong những chương trình tính toán này nên nó không là trọng tâm của người muốn dùng những chương trình này. Tuy nhiên, tôi hoàn toàn đồng ý với Odonata là chúng ta nên hiểu rỏ những tiện lợi cũng như giới hạn của mọi pp dùng trong nghiên cứu khoa học bằng cách thông hiểu những nguyên tắc bên trong của chúng.
    Tôi cũng có thắc mắc qua bài của Odonata là tại sao DNA vẫn chưa được công nhận là một dữ kiện đáng tinh cậy hơn trong phân loại. Odonata đã nêu lên những điểm đáng lưu ý là việc gene nhảy và DNA có thể cho ra nhiều protein khác nhau. Đây là một vấn đề rất thích thú nhưng có lẽ rất phức tạp. Tôi nghĩ là việc dùng DNA để so sánh sự liên hệ tiến hóa giữa các loài thì sẽ dể dàng hơn vì nó là nhân tố di truyền trung thành nhất từ tổ tiên đến thế hệ con cháu, khác với việc dùng hình thái, những nhận dạng bên ngoài, cái mà có lẽ phức tạp hơn vì khó số lượng hóa những đặc tính này. Tuy nhiên, DNA không được di truyền trực tuyến (vertical gene transfer) một cách đơn giản từ thế hệ F1 đến Fn như vậy. Trong quá trình tiến hóa, lúc nào cũng có việc di truyền "ngang hông", hay horizontal gene transfer, tức là việc trao đổi gene mà không từ cha mẹ sang con cái. Virus đóng vai trò quan trọng trong việc nhảy gene này. Hơn nữa, để cho một cây phân loại được chính xác, người ta thường giả thiết là tốc độ biến hóa của DNA phải đồng đều xuyên suốt thời gian, cái mà không bao giờ có thật.
    Tôi đã từng đọc là hiện nay người ta hay dùng DNA của cytochrome C, của ti thể, của ribosome RNA để dùng trong việc phân loại. Các bạn nào có kiến thức về những vấn đề này có thể giải thích thêm vấn đề này không? Xin rất cảm ơn.
  7. ConCay

    ConCay Thành viên mới

    Tham gia ngày:
    18/02/2003
    Bài viết:
    950
    Đã được thích:
    0
    Tôi cảm thấy tức cười với 3 bài viết của odonata, và Ires; chỉ xin viết 1 bài này nữa trả lời rồi nghỉ đi ... uống beer vậy:
    01- Người ta không còn tín nhiệm Protein để phân loại sinh vật vì tính quá phức tạp bộ mã Protein. Chuỗi trình tự DNA có 4 là ATGC còn protein là 20-21. Một protein có thể do nhiều bộ ba mã hóa khác nhau do vậy cùng là 1 aa, nhưng khi nhìn vào gene thì codon 3 loài khác nhau lại có thể khác nhau. Như thế khi đưa lên các mô hình tiến hóa, mức độ phức tạp tăng lên kinh khủng. Các khuynh hướng dùng protein để phân loại hiện nay đã phá sản. Hiện nay chỉ có DNA database là kho dữ liệu được thiên hạ ky cóp ngày càng nhiều phục vụ cho phân loại; các kho dữ liệu khác được xài cho chuyện khác.
    02- Việc chon gene hay cụm gene có những nguyên tắc nhất định; có 2 cái cơ bản là (còn mấy cái khác thì quý vị tự tìm sách mà đọc):
    - gene đó đóng vai trò trung tâm trong 1 hoạt động nào đó của sinh vật:
    - ít hoặc không có intron càng tốt
    Do đó thiên hạ thường xúm vô những gene như SSU của ribosome, genes tham gia photosynthetic system ... Và vì thế DNA của cytochrome C, của ti thể, của ribosome RNA được chọn như là đối tượng nghiên cứu mới cũnng kô có gì lạ.
    03- Mấy cái chuyện này chẳng là Ph.D hay postdoc gì cả, ai quan tâm đều có thể moi sách ra đọc; hứng thì bàn, không hứng thì thôi. Tôi quăng sách ra chẳng để hù dọa ai, đơn giản tôi đọc trong đó thì tôi nói tôi đọc trong đó. Như là References vậy thôi. Ai bảo tôi hù dọa thiên hạ bằng sách vở thì tôi ôm cười đến vỡ bụng vì mấy ông SƯ ông SỸ viết sách viết báo với số lượng references coi đến chóng mặt.
    04- Tôi chưa bao giờ tự nhận mình là nhà phân loại học hay sinh thái học gì ráo, trong bài viết của tôi, nếu có giỏi lắm tôi vỗ ngực tự xưng là nhà linh tinh học vì học đủ thứ linh tinh. Nên chẳng bao giờ tôi dám đá lộn sân người khác. Giờ mà ai hỏi tui về mấy thứ này là tui ngất ngư, thế nên trong bài tui viết có đời nào tui ngu là để lòi đuôi đâu. Nên ông bạn odonata bảo tui không nắm về phân loại học, hình thái học, sinh thái học là quá đúng.
    05-Ông bạn Odonata đưa ra những kiến thức, có tính định hướng cho 1 vấn đề mới (ông bạn nói là nhân đọc 1 bài về phylogenetic tree nên mới viết bài này) nhưng một số điểm lại không chính xác, và công nhận là mình chưa từng làm qua vấn đề sử dụng DNA database để làm việc vì thế tôi mới thắc mắc và chỉ ra 1 số điểm mơ hồ này. Ông bạn đọc xong thì phán rằng: tôi (odonata) không muốn trả lời mấy câu hỏi của cocncay vì concay không là gì cả và góp ý không thiện chí. Vì vậy sau khi đọc xong những bài viết trên, tôi cũng chả buồn quan tâm hay đúng hơn là ngồi viết và giải thích thêm về Molecular Systematics, Phylogenetic Approach làm chi cho mệt vì thiên hạ ở đây có là cái gì đâu và có thiện chí với (bài viết của) tôi đâu. Khoẻ ru.
  8. damdan

    damdan Thành viên mới

    Tham gia ngày:
    17/07/2004
    Bài viết:
    22
    Đã được thích:
    0

    Thấy mọi người tranh luận máu lửa quá nên cũng phải tham gia cùng. Đầu tiên tôi muốn nói rằng: Tranh luận khoa học là việc bình thường và khi đã hăng lên rồi thì sẽ khó kiềm chế dễ dẫn đến mất lòng nhau. Nhưng tôi nghĩ tất cả mọi người đều có tinh thần cầu thị để cùng học hỏi vì đâu có ai toàn vẹn cho nên chúng ta cũng đừng nên xét nét quá. Về vấn đề phân loại theo phương pháp phylogenetic tree, tôi xin phát biểu thêm một số vấn đề sau.
    1. Phylogenetic tree: chỉ là mô hình giả định về mối quan hệ trong lịch sử quá trình tiến hoá của loài (only hypotheses as to evolutionary history)
    Để xây dựng mối liên hệ này thì chúng ta phải dựa vào các chỉ tiêu (fix set of characters) khác nhau : có thể là morphology, physiology, protein hay trong thời gian gần đây là DNA.
    Vì là giả định cho nên có thể xảy ra các lỗi về:
    -Dự đoán phylogenetic mode
    -Dữ liệu
    2. Thiết lập phylogenetic tree: Sau khi đã có dữ liệu chúng ta có thể bắt tay vào xây dựng phylogenetic tree. Bạn có thể tự làm hoặc sử dụng các phần mềm hỗ trợ. Như các bạn cũng biết dữ liệu càng nhiều (sử dụng nhiều đặc tính) thì việc thiết lập cây càng phức tạp đặc biệt là đối với các dữ liệu thu được từ sequencing và tree sẽ chính xác hơn. Từ dữ liệu ban đầu bạn có thể thu được từ vài cho đến hàng trămphylogenetic tree khác nhau. Và vấn đề là bạn phải lựa chọn tree có độ tin cậy cao nhất. Distance method la một trong những phương pháp giúp bạn tuy nhiên ngoài ra còn có một số phương pháp khác tôi không đề cập ở đây.
    Hiện nay theo tôi được biết việc phân loại sinh vật chính xác nhất khi kết hợp tất cả các đặc điểm từ hình thái, sinh học, hoá lý học và thông tin di truyền (DNA database). Tuy nhiên điều nay không dễ dàng do vậy chỉ một số đối tượng đã được nghiên cứu và có đầy đủ các dữ liệu trên. Phân loại học vẫn tiếp tục phát triển và thay đổi hàng ngày.
  9. ConCay

    ConCay Thành viên mới

    Tham gia ngày:
    18/02/2003
    Bài viết:
    950
    Đã được thích:
    0
    Sẵn tiện damdan viết lách vài chữ, tôi cũng nói rõ hơn vài điểm mô hồ
    Ta mò mẫm được 1 trình tự gene A nào đó của 1 loài nào đó, thầy ta bảo ta đi tìm coi trên nét có trình tự nào similarity với cái ta đã tìm hay không. Ta hồ hởi phấn khởi vào nét mò mẫm BLAST. BLAST chạy ầm ầm vài giờ có khi vài ngày và thảy cho ta 1 đống kết quả. Ta mừng quá, ô la la có hàng tá những trình tự similarity. Thầy ta bảo tiếp, thế có cái nào homology không. Ái chà, mệt à, thế là ta phải mời cô em software có cái tên thật mỹ miều Paup* nhờ cô ấy giúp sức. Cô ấy bảo nếu ta muốn lấy kết quả phân tích sơ bộ thì mất chừng vài phút còn nếu lấy kết quả để công bố thì cô nàng phải nhờ đến sự trợ giúp của ông anh bụng bự SERVER LINUX chứ mình cô ấy chạy không nổi và nhỏ nhẹ bảo ta là chịu khó chờ cô ấy chạy chừng 2-4 tuần. Ừ thì chạy sơ bộ cũng được, cũng thấy có 1 thằng homology với cái thằng ta vừa tìm, nhưng để chắc ăn thì ta cũng chạy phân tích 3 tuần xem sao, ái chà, cũng là thằng này homology hay là homologous, còn những thằng khác chỉ là homoplasiou mà thôi.
    Similarity (sự đồng dạng) để chỉ sự quan sát hay quá trình tính toán đo đạc 2 hay nhiều trình tự gene, protein bất kỳ để tìm ra sự giống nhau và khác nhau, từ đó có thể tính luôn hệ số đồng dạng (%).
    Homology (sự tương đồng, đồng đẳng) để chỉ hai trình tự protein hay nucleotide xuất phát từ 1 tổ tiên trực tiếp.
    Có thể tạm hiểu thế này: nhóm các đường 6 C là similarity với nhau. Nhưng chỉ có đường L-glucose và đường D-glucose là 2 chất homology vì tổ tiên chung trực tiếp của nó là glucose.
    Khi có nhiều trình tự gene, ta sắp xếp (alignment) quá trình này gọi là đi tìm sự đồng dạng, tính toán các tỷ lệ đồng dạng tương ứng. Sau đó ta đưa toàn bộ kết quả alignment lên các software chuyên dụng (chứ kô phải software dễ viết hơn game đâu) thì nó sẽ tính toán và cho ta ra cái gọi là phylogenetic tree. Cây phylogentic tree có 2 dạng là Cladogram và Phenogram. Trong trường này thì ta thu được Cladogram (chữ gốc là clade ). Trong cái tree này, nếu ta thấy 2 hay nhiều anh (thường là 2) có chung nhau 1 tổ tiên trực tiếp thì ta nói 2 anh này là homology. Còn khi xét 2 loài nào đó ta thấy chúng không có tổ tiên chung trực tiếp thì ta nói chúng homoplasiou.
    Như vậy, cây cladogram biểu thị sự quan hệ về mặt di truyền, con đường tiến hoá của 1 nhóm sinh vật. Nói cách khác cladogram sẽ cho ta biết là trong 1 nhóm SV ta quan tâm có bao nhiêu nhánh tiến hóa, nhánh nào liên kết với nhánh nào và khả năng loài nào có thể phân nhánh trong tương lai.
    Trong khi đó, đối nghịch (hay cũng có thể coi là song song) với hướng tìm cladogram người ta còn quan tâm đến phenogram (chữ gốc là pheno) của 1 nhóm SV nào đó. Theo đó thì phenogram sẽ cho thấy mức độ tương đồng giữa các loài SV dựa trên tính tương đồng về phenotype, hình thái và thậm chí cả sinh học phân tử.
    Kết quả phân tích của cùng 1 nhóm SV với 2 kết quả Cladogram và phenogram không nhất thiết giống nhau. Tuy nhiên nếu có 1 quan hệ tuyến tính giữa thời gian phân kỳ và mức độ phân kỳ thì cladogram và phenogram lại có thể giống nhau.
    Maximum parsimony method là pp tối ưu hiện nay để tìm ra cladogram, chứ kô phải distance method như 1 số tài liệu xa xưa công bố. MP đại diện cho khuynh hướng dựa trên đặc tính trạng thái.
    UPMGA method (Unweighted Pair-Group Method with Arithmetic Mean) là pp tối ưu để tìm phenogram. UPMGA chính là một dạng distance method.
    PP khoảng cách chủ yếu là dựa trên sự thay đổi về số học, tức là nó xem xét có bao nhiêu sự giống nhau hay khác nhau giữa các chuỗi cơ sở dữ liệu đã được mã hoá dưới dạng số học. Ta lấy ví dụ trần tục là trình tự aa hay nu cho dễ hiễu, như vậy pp khoảng cách sẽ sẽ tính có bao nhiêu nu hay aa thay đổi giữa trình tự này và trình tự kia từ đó ước tính quan hệ giữa chúng (tỷ lệ % giống nhau càng lớn thì quan hệ càng gần và ngược lại). Trong khi đó pp đặc tính thì lại phức tạp hơn là vì nó xét 1 điểm đặc hiệu nào đó trên trình tự nu ví dụ dang là A, nhưng nó sẽ đánh giá là xác suất là bao nhiêu để A hiện diện ở điểm này, hoặc nó sẽ xem xét các khả năng bị loại bỏ hay thêm vào 1 nu nào đó ở 1 điểm nào đó, tức là nó phải tính toán và tìm ra được con đường ngắn nhất để từ đó dẫn đến việc A hiện diện ở điểm đang xét. Lưu ý quá trình xem xét phải được thực hiện từ đầu đến cuối trình tự và cho hết toàn bộ các trình tự đưa vào nên thồi gian tiêu tốn khá lâu.
    Có thể kể ra đây 5 pp khoảng cách cơ bản:
    UPMGA,
    Transformed Distance Method,
    Neighbors-Relation Method,
    Neighbors-Joining Method,
    Minimum-Evolution Method.
    Điều quan trọng dễ thấy là PP đặc tính trạng thái mạnh hơn rất nhiều so với pp khoảng cách. Do pp MP tiêu tốn khá nhiều thời gian, nên đầu tiên người ta có thể tìm các cây Cladogram sơ bộ bằng cách dùng các pp khoảng cách đơn giản (vì tính toán nhanh) chẳng hạn pp Neighbors-Joining Method được tôi ưu ái ưu thích. Sau đó, khi cần phân tích thật sự, người ta mới áp dụng pp MP.
    Đó là tôi chưa nói đến việc chọn lựa các Evolutionary Models trong quá trình phân tích cũng như tính toán giá trị Bootstrap Value để tìm the best tree.
    Yes of course, Molecular Evolution hay Molecular System được viết trong mấy cuốn sách dày cui, mấy chữ mèo quàu này chỉ để làm rõ 1 số khái niệm mà 1 số người có thể lầm lẫn, chứ muốn hiểu thấu đáo thì xin đọc mấy cuốn sách tôi đã giới thiệu, vì tôi cũng đọc trong đó mà ra.
  10. ires

    ires Thành viên mới

    Tham gia ngày:
    29/10/2003
    Bài viết:
    27
    Đã được thích:
    0
    Cảm ơn Concay đã giải thích đầy đủ hơn về những phương pháp khác dùng trong phân loại học. Đó là sự bổ sung rất hữu ích cho bài đầu tiên của Odonata. Tuy nhiên nếu muốn đọc kỹ hơn thì phải đi tìm đọc những cuốn sách Concay đưa ra vậy. Nhưng tôi chưa có cơ hội để làm những vấn đề này nên chắc cũng còn lâu...
    Trở về một trong những điểm thắc mắc trước của tôi về việc chọn gene để dùng trong việc phân loại thì được Concay giải thích như sau:
    Tôi thật sự vẫn chưa hiểu 2 điều cơ bản để chọn gene này vì sẽ có rất nhiều gene đóng vai trò trung tâm trong 1 hoạt động nào đó của SV và cũng có rất nhiều gene có ít hoặc không có intron. Bởi vậy tôi phải nghe lời Concay tự tìm sách mà đọc vậy.
    Đi tìm hiểu một hồi thì tôi mới thấy những lời giải thích sau đây là hợp lý nhất:
    1) Khi muốn so sánh sự liên hệ giữa những SV rất gần nhau, chẳng hạn giữa các loài khỉ với nhau, người ta sẽ chọn những gene có tốc độ đột biến cao nhất. Do đó chọn DNA từ ti thể là tốt vì trong ti thể có nhiều phân tử có nhiều hoạt tính oxy hóa cao và dể làm đột biết DNA. Hơn nữa, những DNA polymerase trong ti thể hoạt động không chính xác và cũng góp phần vào việc tăng tỉ lệ đột biến.
    2) Khi muốn so sánh sự liên hệ giữa những SV rất xa nhau, chẳng hạn giữa người và muỗi, người ta sẽ chọn những gene có độ bảo tồn cao nhất. Do đó, gene của ribosome RNA và những loại tương tự được chọn.
    Odonata đã lập ra một chủ đề học hỏi mới và khá hấp dẫn, cái mà rất hiếm thấy trên box SH này. Tuy nhiên kiến thức bao giờ cũng có lổ hổng và luôn cần được bổ sung. Sự học hỏi bổ sung kiến thức này chỉ có được qua thiện chí của những người tham gia. Sự thiện chí của người tham gia chỉ có thể được hiểu đúng đắn qua cách dùng từ ngữ trong bài viết. Nếu có thiện chí mà dùng từ ngữ quá cảm tính thì nó sẽ đánh bại cái thiện chí của mình, và kết quả là đánh bại luôn cả cơ hội học hỏi lành mạnh và hiếm hoi này. Khi một người chịu khó đóng góp bài viết và mạnh dạn phơi bày những lổ hổng trong kiến thức của mình để mong được học hỏi thêm thì không có gì hứng thú hơn khi nhận thấy bài viết của mình bị giểu cợt vì quá tức cười. Chúng ta là con người nên ai cũng có cảm tính nhưng khi thảo luận khoa học thì cần sự khách quan và trung tính. Những phản ứng đầy cảm tính trong những bài viết trên đã cho thấy chúng ta vẫn chưa vượt qua được bức tường ngôn ngữ này. Hy vọng nó không giết chết những cố gắng mới trong tương lai.

Chia sẻ trang này