Trang chủ Khoa học

Khoa học

Phát hiện 100.000 loại virus mới trong cơ sở dữ liệu di truyền

07/02/2022 14:39

Trong đó có 9 virus corona tương tự như virus SARS-CoV-2.

Chỉ cần một loại virus mới đã làm tê liệt nền kinh tế thế giới và giết chết hàng triệu người, và các nhà virus học ước tính vẫn còn hàng nghìn tỷ virus đang tồn tại mà chưa được biết đến, nhiều trong số đó có thể gây chết người hoặc có khả năng gây ra đại dịch tiếp theo. Mới đây, thông qua sàng lọc cơ sở dữ liệu gen hiện có, họ đã phát hiện hơn 100.000 loại virus mới, bao gồm 9 virus corona và hơn 300 virus liên quan đến virus viêm gan Delta, có thể gây suy gan.

Phân tích cơ sở dữ liệu gen hiện có đã phát hiện ra 9 loại virus corona mới tương tự như virus SARS-CoV-2 này.

Ban đầu, nhà sinh vật học máy tính Artem Babaian, tác giả nghiên cứu mới, chỉ muốn biết có bao nhiêu virus corona - ngoài virus SARS-CoV-2 - có thể được tìm thấy trong cơ sở dữ liệu bộ gen hiện có. Vì vậy, Babaian và chuyên gia siêu máy tính Jeff Taylor đã rà soát cơ sở dữ liệu trình tự gen toàn cầu do Viện Y tế Quốc gia Hoa Kỳ đăng tải. Cơ sở dữ liệu này chứa 16 petabytes (1 petabyte là 10¹⁵ bytes) các trình tự gen của các mẫu có được từ các cuộc khảo sát di truyền - bao gồm từ cá, đất trang trại đến ruột người. Bộ gen của các virus có trong các mẫu này được lưu lại trong quá trình giải trình tự, nhưng thường không được phát hiện.

Để sàng lọc dữ liệu và tìm ra các trình tự virus, Babaian và Taylor đã phát minh ra một bộ công cụ máy tính. Các virus RNA đều có gen RNA polymerase thực hiện quá trình nhân lên của virus. Công cụ của nhóm Babaian rà soát tất cả các trình tự trong cơ sở dữ liệu và tìm ra đoạn trình tự khớp với trình tự gen này, nhờ đó chỉ ra đâu là các trình tự của virus ẩn trong cơ sở dữ liệu. Virus RNA không chỉ bao gồm virus corona mà còn bao gồm những virus gây bệnh cúm, bại liệt, sởi và viêm gan.

Phương pháp của Babaian đủ nhanh để xử lý 1 triệu chuỗi dữ liệu trình tự gen mỗi ngày - với chi phí tính toán dưới 0,01 USD cho mỗi chuỗi. "Đây là một kỹ thuật ấn tượng," C. Titus Brown, nhà tin sinh học tại Đại học California, Davis, người không tham gia nghiên cứu, cho biết. Khi rà soát xong, nhóm Babaian đã phát hiện một phần bộ gen của gần 132.000 virus RNA, theo kết quả báo cáo trên tạp chí Nature.

Cơ sở dữ liệu mới của nhóm không có trình tự hoàn chỉnh của từng loại virus mới - đối với nhiều virus chỉ có gen của enzyme cốt lõi. Nhưng các nhà nghiên cứu có thể sử dụng các đoạn trình tự này để xây dựng cây phả hệ cho thấy các virus khác nhau liên quan đến nhau như thế nào và chúng tiến hóa ra sao. Họ cũng có thể sử dụng cơ sở dữ liệu để tìm ra nguồn gốc của một loại virus cụ thể - và vật chủ của nó là gì. Theo Brown, dữ liệu này có thể giúp các nhà nghiên cứu hiểu rõ hơn về cách thức phát sinh mầm bệnh ở người, hoặc cải thiện các xét nghiệm chẩn đoán bệnh nhiễm virus. Cuối cùng, khi một loại virus mới được phân lập từ một bệnh nhân, các nhà nghiên cứu có thể đối chiếu với cơ sở dữ liệu này để xác định liệu virus gây bệnh đã từng xuất hiện ở đâu chưa. Babaian nói: “Chúng tôi đã biến cơ sở dữ liệu này thành một mạng lưới giám sát virus khổng lồ."

"Đây là một nghiên cứu có tính nền tảng, mở rộng số lượng virus RNA đã biết," nhà tin sinh học J. Rodney Brister tại Thư viện Y khoa Quốc gia Mỹ, người không tham gia vào nghiên cứu mới, nói. Nhà bệnh học Peter Daszak, chủ tịch của EcoHealth Alliance, một nhóm nghiên cứu phi lợi nhuận ở thành phố New York, cho rằng nghiên cứu mới cũng “chứng tỏ sự thiếu hiểu biết nghiêm trọng của chúng ta về nhóm sinh vật này”.

Một số phát hiện rất bất ngờ, chẳng hạn như việc phát hiện một loại virus corona chưa từng được biết đến trước đây ở cá nóc và cá khủng long 6 sừng - một loại cá cảnh phổ biến, cho dù hai loài này đã được nghiên cứu kỹ lưỡng. Nhóm Babaian cũng tìm thấy bằng chứng về hơn 250 loại virus có kích cỡ khổng lồ, lây nhiễm trên vi khuẩn, tương tự như các virus được tìm thấy trong tảo. Các virus này, thuộc nhóm virus thực khuẩn, được phát hiện từ các sinh vật rất khác nhau trong cơ sở dữ liệu. Ví dụ, một nhóm đã được tìm thấy ở một người ở Bangladesh và chó mèo ở Vương quốc Anh.

Để các nhà nghiên cứu khác có thể sử dụng danh sách virus mới, nhóm Babaian đã tạo một kho lưu trữ công khai gồm cả kết quả nghiên cứu và công cụ mà họ đã phát triển. Số lượng các trình tự gen đăng tải trên cơ sở dữ liệu toàn cầu ngày càng lớn, và Babaian cho biết tiếp tục thực hiện phân tích tương tự sau một năm, có thể sẽ tìm thấy hàng trăm nghìn virus RNA nữa. "Vào cuối thập kỷ, tôi muốn xác định hơn 100 triệu virus RNA mới," Babaian nói.

Nguồn:

https://www.science.org/content/article/new-dangers-computers-uncover-100-000-novel-viruses-old-genetic-data

https://www.nature.com/articles/s41586-021-04332-2

Hoàng Phương tổng hợp