Chấm điểm các geneKhởi động vào năm 1990, Dự án Bản đồ gene Người là một dự án nghiên cứu khoa học quốc tế nhằm xác định trình tự của các cặp cơ sở tạo thành phân tử DNA trong bộ gene của con người. Bản phác thảo đầu tiên của bộ gene ra đời vào năm 2000 và hoàn thiện vào năm 2003 - nhưng phải mất thêm gần 20 năm nữa để các nhà khoa học công bố phiên bản hoàn chỉnh cuối cùng.
Tuy nhiên, công trình này không đặt dấu chấm hết cho câu đố di truyền của loài người. Một nghiên cứu mới đã vạch ra khoảng cách lớn giữa việc đọc gene và việc thực sự hiểu chúng. Một phần bộ gene - những khu vực mà các tác giả nghiên cứu đặt biệt danh là “Unknome” - được tạo thành từ các gene mà đến nay chúng ta vẫn chưa biết chức năng của chúng.
Điều này có ý nghĩa quan trọng đối với y học: Gene chứa đựng tất cả các thông tin cần thiết, là “bản hướng dẫn” để tạo ra các “viên gạch” protein của cơ thể. Rất nhiều trong số chúng vẫn còn khuất trong bóng tối, và điều này nhắc nhở chúng ta rằng chúng có thể là nhân tố nắm giữ chìa khóa dẫn đến các tình trạng rối loạn phát triển, ung thư, thoái hóa thần kinh, v.v.
Nghiên cứu đã trình bày số lượng gene quan trọng mà chúng ta biết rất ít hoặc không biết gì. Các nhà khoa học ước tính rằng chức năng của 1/5 số gene trong cơ thể chúng ta về cơ bản vẫn là một bí ẩn. Tuy nhiên, nghiên cứu cũng vạch ra cách các nhà khoa học có thể tập trung giải mã những gene bí ẩn đó. “Hiện tại chúng ta có thể đang ở giai đoạn đầu trong quá trình đưa các Unknome ra ngoài ánh sáng”, Matthew Freeman thuộc Trường Bệnh lý học Dunn tại Đại học Oxford, đồng tác giả của nghiên cứu, cho biết.
Việc phát hiện ra rằng vẫn còn rất nhiều gene đang chìm trong bóng tối phản ánh thói quen quan sát của mọi người: chăm chăm tìm kiếm những thứ dễ nhìn nhất. Trong trường hợp này, nó đã gây ra một hiện tượng mà Freeman và Munro gọi là “sự thiên vị trong nghiên cứu sinh học”.
|
Nhóm nghiên cứu đã sử dụng hai công cụ để tìm ra lỗ hổng trong kiến thức của chúng ta. Đầu tiên, bằng cách tham khảo rất nhiều cơ sở dữ liệu thông tin di truyền hiện có, họ đã so sánh mã di truyền của nhiều loài khác nhau để tìm ra các gene trông gần giống nhau.
Đây được gọi là gene bảo toàn (những gene có thể được tìm thấy trong nhiều sinh vật khác nhau). Ngay cả khi chúng ta không hiểu công dụng của chúng, chúng ta vẫn biết rằng chúng phải đóng vai trò quan trọng vì tự nhiên rất “tiết kiệm” và có xu hướng sử dụng cùng một bộ máy di truyền để thực hiện những công việc quan trọng trong các sinh vật khác nhau. “Chúng tôi tin rằng nếu những gene này quan trọng, chúng sẽ được bảo toàn khá tốt trong suốt quá trình tiến hóa”, Freeman nói.
Một khi các nhà nghiên cứu đã tìm thấy những dấu vết di truyền tương tự ở giun, người, ruồi, vi khuẩn và các sinh vật khác, họ có thể xem xét những thông tin đã biết về chức năng của những gene quan trọng này và cho chúng một số điểm tương ứng, điểm số càng cao thì tức là con người càng hiểu rõ về chúng.
Bởi vì rất nhiều thông tin di truyền đã có sẵn trên hàng trăm bộ gene và được ghi chép một cách chuẩn chỉnh nên nhóm nghiên cứu có thể tự động hóa quy trình tính điểm này. “Sau đó, chúng tôi đã xem lại có bao nhiêu [gene được bảo toàn] có số điểm nhỏ hơn một - về cơ bản con người không biết gì về chúng”, Freeman giải thích. “Thật ngạc nhiên, hai thập kỷ sau dự án bộ gene người đầu tiên, con số này vẫn rất lớn”.
Nhìn chung, tổng số gene của con người có điểm từ 1 trở xuống - nghĩa là hầu như không có thông tin gì cả - hiện là 1.723 trên 19.664 gene.
Tương tự như vậy, 10 gene có số điểm cao nhất trong cơ sở dữ liệu di truyền tương ứng với “tất cả các gene phổ biến nhất,” Sean Munro thuộc Phòng thí nghiệm Sinh học Phân tử ở Cambridge, đồng tác giả nghiên cứu chia sẻ. “Chúng tôi đã nhận ra từng gene trong số này và đã có hàng ngàn bài báo về mỗi gene”.
25% số gene bí ẩn ảnh hưởng đến sự sống cònKhi xác định được số lượng đáng kể những gene chưa biết, nhóm đã tiến hành thêm một nghiên cứu nữa, sử dụng sinh vật mà các nhà khoa học hiểu rất rõ (ở cấp độ di truyền): Drosophila melanogaster. Những con ruồi giấm này đã trở thành đối tượng nghiên cứu quan trọng trong hơn một thế kỷ vì chúng dễ sinh sản và rẻ tiền, có vòng đời ngắn, đẻ nhiều con và có thể được biến đổi gene theo các cách khác nhau.
Nhóm nghiên cứu đã sử dụng công cụ chỉnh sửa gene để xem xét khoảng 300 gene có điểm số thấp được tìm thấy ở cả người và ruồi giấm. “Chúng tôi phát hiện ra rằng 1/4 số gene chưa biết này đóng vai trò sống còn — khi bị loại bỏ, chúng khiến ruồi chết. Vậy mà chúng ta chẳng biết gì về chúng”, Freeman nhận định. “25% khác gây ra những thay đổi về kiểu hình ở ruồi - những thay đổi mà chúng tôi có thể phát hiện bằng nhiều cách.” Những gene này có liên quan đến khả năng sinh sản, phát triển, vận động, kiểm soát chất lượng protein và khả năng phục hồi trước căng thẳng. “Còn rất nhiều gene cơ bản mà chúng ta chưa biết gì về nó. Rất có thể mỗi biến đổi trong các gene này sẽ gây ảnh hưởng lớn để sức khoẻ con người”, Freeman nói.
Nhóm đã lưu trữ tất cả thông tin về những gene “Unknome” này trên cơ sở dữ liệu để các nhà nghiên cứu khác có thể sử dụng trong các nghiên cứu mới. Các nhà khoa học dự định chuyển dữ liệu về các gene bí ẩn này và các protein mà chúng tạo ra cho AI.
Ví dụ, hệ thống AI AlphaFold của DeepMind có thể cung cấp những thông tin quan trọng về hoạt động của các protein bí ẩn, đặc biệt là bằng cách theo dõi cách chúng tương tác với các protein khác, ông Alex Bateman thuộc Viện Tin sinh học châu Âu, có trụ sở gần Cambridge, Vương quốc Anh cho biết. Theo ông, công nghệ cryo-EM (phương pháp đông lạnh mẫu thử dùng trong kính hiển vi điện tử) cũng tương tự như vậy, đây là phương pháp giúp các nhà khoa học tạo ra hình ảnh của các phân tử lớn, phức tạp. Và một nhóm của Đại học College London đã hoàn thiện kỹ thuật sử dụng máy học để theo dõi hoạt động của protein.
Khác với những cơ sở dữ liệu sinh học thông thường, chúng ta càng hiểu rõ về các gene “Unknome”, cơ sở dữ liệu về chúng sẽ càng thu hẹp lại. Bài báo cho thấy rằng trong thập kỷ qua, những gì chúng ta chưa biết về hệ protein “đã giảm từ 40% xuống còn 20%”, Bateman nói. Tuy nhiên, với tốc độ tiến bộ hiện tại, việc tìm ra chức năng của tất cả các gene mã hóa protein của con người có thể mất hơn nửa thế kỷ nữa, Freeman ước tính.
Việc phát hiện ra rằng vẫn còn rất nhiều gene đang chìm trong bóng tối phản ánh thói quen quan sát của mọi người: chăm chăm tìm kiếm những thứ dễ nhìn nhất. Trong trường hợp này, nó đã gây ra một hiện tượng mà Freeman và Munro gọi là “sự thiên vị trong nghiên cứu sinh học”.
Các nhà nghiên cứu có xu hướng nhận tài trợ cho các công trình trong những lĩnh vực quen thuộc, hơn là đi sâu vào “vùng hoang dã” chưa có người khai phá. Đây là lý do tại sao cơ sở dữ liệu lại quan trọng đến vậy, Munro giải thích, nó cho thấy những con số, bằng chứng rõ ràng. “Cần tìm ra cách thức hỗ trợ phù hợp để các nhà khoa học quan tâm đến các gene bí ẩn này”, Munro bày tỏ suy nghĩ.
Nhưng ngay cả khi các nhà khoa học đã thu thập gene để xây dựng một cơ sở dữ liệu có sẵn, vẫn còn rất nhiều khoảng trống còn sót lại. Nghiên cứu trên chỉ tập trung vào các gene chịu trách nhiệm về protein. Trong hai thập kỷ qua, nhiều vùng trong bộ gene cũng đã được phát hiện có chứa mã cho các RNA nhỏ - các mẩu vật chất di truyền có thể tác động đến các gene khác và là yếu tố điều chỉnh quan trọng đối với sự phát triển bình thường lẫn các chức năng quan trọng của cơ thể. Có thể còn nhiều “ẩn số chưa biết” đang ẩn nấp trong bộ gene của con người.
Freeman hy vọng những thông tin này sẽ khơi gợi hứng thú của các nhà nghiên cứu, giúp họ quan tâm hơn đến các gene “Unknome”. Hiện tại, các gene bí ẩn vẫn còn rất nhiều - đủ để các nhà khoa học có thể tự tin bước lên chuyến tàu đến các vùng tối bí ẩn trong hệ gene của loài người.