DeepMind và một nhóm học thuật khác mới đây đã cho phép truy cập miễn phí các công cụ giải cấu trúc 3D của protein.

Công ty DeepMind có trụ sở tại London đã phát hành phiên bản mã nguồn mở của mạng nơ-ron học sâu AlphaFold 2 và mô tả mạng này trong một bài báo trên Nature hôm 15/7. Mạng nơ-ron này đã chiến thắng một cuộc thi dự đoán cấu trúc protein CASP vào năm ngoái.

Trong khi đó, một nhóm học thuật khác cũng đã phát triển một công cụ nguồn mở dự đoán cấu trúc protein lấy cảm hứng từ AlphaFold 2. Công cụ của họ có tên RoseTTaFold, hoạt động gần tốt bằng AlphaFold 2, và được mô tả trong một bài báo trên tờ Science được xuất bản cùng ngày 15/7.

Cấu trúc của protein interleukin-12 của con người, theo dự đoán của phần mềm học máy.

Cơ thể con người sử dụng hàng chục nghìn loại protein khác nhau, mỗi protein có hàng chục đến hàng trăm loại axit amin. Thứ tự của các axit amin quyết định vô số cách đẩy và kéo giữa chúng, làm phát sinh các hình dạng 3D phức tạp của protein, từ đó xác định chức năng và cách hoạt động của protein. Việc dự đoán được cấu trúc 3D sẽ giúp tổng hợp nên protein với cấu trúc mong muốn, tạo ra các ứng dụng về y tế hoặc giúp tăng tốc độ phát triển các enzyme tạo nhiên liệu sinh học hay phân hủy nhựa phế thải.

Trong nhiều thập kỷ, các nhà nghiên cứu đã giải mã cấu trúc 3D của protein bằng cách sử dụng các kỹ thuật như tinh thể học tia X hoặc kính hiển vi điện tử lạnh (cryo-EM). Nhưng những phương pháp như vậy có thể mất vài tháng hoặc vài năm và không phải lúc nào cũng hiệu quả. Đến nay, các nhà khoa học mới giải được cấu trúc của khoảng 170.000 trong số hơn 200 triệu protein được phát hiện ở các dạng sống.

DeepMind đã gây bất ngờ cho giới khoa học vào năm ngoái, khi dự đoán chính xác cấu trúc 3D của nhiều loại protein chỉ bằng cách sử dụng trình tự của các protein (được xác định bởi DNA) và vượt xa các đối thủ khác trong cuộc thi giải cấu trúc protein CASP. DeepMind - vốn luôn kín tiếng về các nghiên cứu của họ - đã mô tả AlphaFold 2 trong một bài thuyết trình ngắn gọn tại CASP vào ngày 1/12/2020. Công ty này cũng hứa sẽ xuất bản một bài báo mô tả chi tiết hơn về mạng nơ-ron AlphaFold 2 và cung cấp phần mềm cho các nhà nghiên cứu, nhưng không nói gì thêm.

Sau thành tích của AlphaFold 2 vào năm ngoái, David Baker, nhà sinh hóa học, và Minkyung Baek, nhà hóa học tính toán tại Đại học Washington ở Seattle, bắt đầu phát triển RoseTTaFold, hoạt động gần như tốt như AlphaFold 2. Vẫn chưa rõ lý do tại sao nó không thể bằng AlphaFold 2, nhưng một khả năng nằm ở chuyên môn của DeepMind. Baek nói: “Chúng tôi không có bất kỳ kỹ sư học sâu nào trong phòng thí nghiệm”.


Mới đây, DeepMind cũng đã mở mã nguồn AlphaFold 2. Hơn nữa, phiên bản nguồn mở của mạng này giải cấu trúc protein nhanh hơn khoảng 16 lần so với phiên bản DeepMind mang đi dự thi CASP, John Jumper, trưởng nhóm nghiên cứu của AlphaFold, cho biết. Phiên bản mới có thể giải cấu trúc 3D của protein trong vài phút đến vài giờ, tùy thuộc vào kích thước của protein.

Ngoài việc cung cấp miễn phí mã của RoseTTaFold, nhóm của Baker đã thiết lập một máy chủ để các nhà nghiên cứu có thể gửi chuỗi trình tự protein và nhận về cấu trúc 3D dự đoán. Baker cho biết kể từ khi khởi động vào tháng trước, máy chủ đã dự đoán cấu trúc của hơn 5.000 protein từ khoảng 500 nhà nghiên cứu gửi về.

Theo Jinbo Xu, nhà sinh học máy tính tại Đại học Chicago ở Illinois, với mã nguồn mở của cả RoseTTaFold và AlphaFold 2, các nhà nghiên cứu có thể phát triển hai công cụ này hơn nữa và dự đoán được những protein phức tạp nhất mà đến nay AlphaFold 2 cũng chưa giải được. Hai lĩnh vực được quan tâm nhiều nhất là dự đoán cấu trúc phức hợp của nhiều protein tương tác với nhau, và ứng dụng các công cụ này để thiết kế các protein mới.

Nguồn: