Bước tiến của các thuật toán AI giải cấu trúc protein trong năm nay mở ra những góc nhìn mới về cơ chế của sự sống chưa từng thấy trước đây, theo Science.
Trong bài phát biểu nhận giải Nobel năm 1972, nhà hóa sinh người Mỹ Christian Anfinsen đưa ra tầm nhìn: Một ngày nào đó chúng ta có thể dự đoán cấu trúc 3D của bất kỳ loại protein nào chỉ đơn thuần từ trình tự các khối cấu tạo axit amin của nó. Với hàng trăm nghìn protein trong cơ thể con người, tiến bộ này sẽ có những ứng dụng sâu rộng, mở ra nhiều hiểu biết về sinh học cơ bản và thuốc nhắm mục tiêu.
Giờ đây, sau gần 50 năm, các nhà nghiên cứu đã chỉ ra rằng các thuật toán trí tuệ nhân tạo (AI) có thể dự đoán chính xác hàng nghìn cấu trúc protein - một bước tiến giúp hiện thực hóa giấc mơ của Anfinsen và vừa được tạp chí Science đánh giá là bước đột phá của năm 2021.
Trước đây, cấu trúc protein chỉ có thể được xác định thông qua các phân tích trong phòng thí nghiệm. Nhưng giờ đây, nhờ các thuật toán AI dự đoán, các nhà khoa học có thể tính toán nhanh chóng cấu trúc của hàng chục nghìn protein và các phức hợp tương tác protein.
Protein là một công cụ đắc lực trong sinh học. Chúng thực hiện co bóp cơ bắp, chuyển đổi thức ăn thành năng lượng tế bào, vận chuyển oxy trong máu và chống lại những vi sinh vật xâm lược. Cho dù nhiều chức năng khác nhau, tất cả các protein đều cấu thành từ một dạng cơ bản: một chuỗi gồm 20 loại axit amin khác nhau. Mỗi chuỗi axit amin sẽ gấp lại thành một hình dạng 3D phức tạp và độc nhất - protein. Hình dạng 3D của chuỗi xác định cách protein tương tác với các phân tử khác và thực hiện vai trò của chúng trong tế bào.
Nghiên cứu của Anfinsen đề xuất rằng chính sự tương tác giữa các axit amin đưa protein về hình dạng cuối cùng của chúng. Nhưng với số lượng tương tác có thể có giữa các axit amin riêng lẻ trong chuỗi, ngay cả những protein kích thước nhỏ cũng có thể có vô số hình dạng 3D. Năm 1969, nhà sinh học phân tử người Mỹ Cyrus Levinthal đã tính toán sẽ mất nhiều thời gian hơn tuổi của một vũ trụ để một chuỗiaxit aminluân chuyển qua mọi hình dạng khả thi. Và điều kỳ lạ là trong tự nhiên, mỗi chuỗi sẽ gấp lại theo đúng một cách, tạo thành một hình dạng 3D nhất định chỉ trong chớp mắt.
Vào những năm 1950, các nhà nghiên cứu bắt đầu lập bản đồ cấu trúc 3D của protein bằng cách phân tích cách tia X phản chiếu ra khỏi protein. Kỹ thuật tinh thể học tia X nhanh chóng trở thành phương pháp tiếp cận hàng đầu để giải cấu trúc protein. Đến nay, kho lưu trữ Ngân hàng Dữ liệu Protein chứa khoảng 185.000 cấu trúc protein được giải bằng phương pháp thực nghiệm này. Nhưng cách giải cấu trúc này có thể mất nhiều năm - và chi phí hàng trăm nghìn USD cho mỗi protein. Để tăng tốc, các nhà khoa học bắt đầu tạo ra các mô hình máy tính vào những năm 1970 để dự đoán cách một chuỗi axit amin cụ thể gấp lại thành protein.
Ban đầu, phương pháp này chỉ khả thi đối với các protein nhỏ hoặc các đoạn ngắn của các protein lớn hơn. Tuy nhiên, đến năm 1994, các mô hình máy tính đã phát triển đủ mạnh, và xuất hiện cuộc thi Dự đoán cấu trúc protein (CASP) hai năm một lần. Các nhà tổ chức giao đề bài là hàng chục loại protein khác nhau cho những người xây dựng thuật toán. Vào cuối cuộc thi, kết quả dự đoán của những người xây dựng thuật toán được so sánh với dữ liệu thực nghiệm mới nhất từ tinh thể học tia X, quang phổ cộng hưởng từ hạt nhân và kính hiển vi điện tử lạnh (cryo-EM). Điểm so sánh độ trùng khớp đạt trên 90 được coi là chính xác ngang với các cấu trúc đã giải cấu trúc bằng thực nghiệm.
Những năm đầu cuộc thi, điểm số trung bình thường dưới 60. Nhưng theo thời gian, các nhà phát triển thuật toán đã học được các thủ thuật để cải thiện dự đoán của họ. Ví dụ, các đoạn axit amin chung giữa hai protein thường có cách gấp tương tự. Vì thế, nếu một protein có cấu trúc chưa được xác định có chung 50% trình tự axit amin với một protein có cấu trúc đã được giải, thì protein đã được giải sẽ được dùng làm “khuôn mẫu” để các mô hình máy tính dự đoán theo.
Một tiến bộ khác đến từ sự tiến hóa: nếu một axit amin thay đổi trong một protein chung giữa các sinh vật có quan hệ gần, như tinh tinh và con người, thì các axit amin xung quanh cũng sẽ phải thay đổi để duy trì hình dạng và chức năng của protein. Nhờ đó, thuật toán có thể thu hẹp số hình dạng khả thi của một protein bằng cách tìm kiếm các axit amin liên kết: ngay cả khi chúng ở xa nhau trên chuỗi thẳng, chúng sẽ ở cạnh nhau trong hình dạng 3D cuối cùng khi đã gấp xong.
Năm nay, trí tuệ nhân tạo đã dự đoán cách hai protein tạo thành một phức hợp liên quan đến quá trình sửa chữa DNA trong nấm men.
Năm 2018, các thuật toán thường đạt khoảng 70 điểm. Sau đó, AlphaFold, một thuật toán AI được đào tạo bằng cơ sở dữ liệu cấu trúc protein do DeepMind phát triển, đạt điểm gần 80 (và thắng 43 trong 90 trận đấu với các thuật toán khác). Đến năm 2020, AlphaFold2, đạt điểm số trung bình là 92,4 - ngang bằng với các kỹ thuật thực nghiệm.
“Tôi chưa bao giờ nghĩ rằng mình sẽ thấy điều này trong đời," John Moult, nhà sinh vật học cấu trúc tại Đại học Maryland, Shady Grove và đồng sáng lập CASP.
Năm 2021, các AI dự đoán cấu trúc protein phát triển vượt bậc. Vào giữa tháng 7, Baker và các đồng nghiệp cho biết AI RoseTTAFold của họ đã giải cấu trúc được hàng trăm loại protein. Một tuần sau, các nhóm DeepMind báo cáo đã dự đoán cấu trúc 350.000 loại protein được tìm thấy trong cơ thể người - 44% tất cả các loại protein đã biết của con người. Trong những tháng tới, Deepmind hy vọng cơ sở dữ liệu này sẽ tăng lên 100 triệu protein từ tất cả các loài - gần một nửa tổng số protein từng được biết đến.
Bước tiếp theo là dự đoán các loại protein nào hoạt động cùng nhau và cách chúng tương tác. DeepMind cũng đã làm được điều này. Trong một bản thảo vào tháng 10 năm nay, nhóm đã tiết lộ 4.433 phức hợp protein-protein, tiết lộ loại protein nào liên kết với nhau - và cách thức chúng liên kết. Vào tháng 11, RoseTTAFold tìm ra thêm 912 tổ hợp khác.
Mã nguồn AlphaFold2 và RoseTTAFold hiện đã được công bố rộng rãi, giúp các nhà khoa học khác tham gia vào cuộc chơi. Trong đó, các nhà nghiên cứu ở Đức và Mỹ sử dụng AlphaFold2 và cryo-EM để lập bản đồ cấu trúc của một tổ hợp gồm 30 loại protein khác nhau kiểm soát việc tiếp cận nhân tế bào; các nhà nghiên cứu Trung Quốc sử dụng AlphaFold2 để lập bản đồ cấu trúc của gần 200 protein liên kết với DNA. Tháng trước, Alphabet - công ty mẹ của Google - sử dụng các cấu trúc protein dự đoán được để thiết kế thuốc mới. Và nhóm của Baker đang tìm cách tạo ra các chuỗi protein mới có thể gấp lại thành các cấu trúc ổn định để tạo thành các chất xúc tác và kháng virus mới.
Ngay bây giờ, các nhà khoa học nghiên cứu SARS-CoV-2 đang sử dụng AlphaFold2 để lập mô hình tác động của các đột biến trong protein gai của biến thể Omicron.
Vẫn còn nhiều vấn đề cần nghiên cứu trong lĩnh vực này. Protein không phải là cấu trúc tĩnh; chúng uốn cong và xoắn khi thực hiện nhiệm vụ, và hiện vẫn chưa thể dự đoán những hoạt động đó. Việc dự đoán các phức hợp lớn, gồm nhiều protein thực hiện vô số công việc trong tế bào, còn rất khó khăn. Nhưng những tiến bộ nhờ AI dự đoán cấu trúc protein trong năm nay hứa hẹn sẽ thay đổi hoàn toàn ngành sinh học và y học.
Nguồn: