Các nhà hóa học từ lâu đã mơ ước làm chủ công cụ hóa học kỳ diệu của sự sống là protein. Giấc mơ này đã nằm trong tầm tay, nhờ nền móng do ba nhà khoa học - David Baker, Demis Hassabis và John M. Jumper - tạo ra.
Protein là một loại phân tử sinh học cực kỳ quan trọng đối với mọi sinh vật sống, trong đó có con người. Chúng được tạo thành từ các đơn vị nhỏ hơn gọi là axit amin. Có 20 loại axit amin khác nhau, và chúng được liên kết với nhau theo nhiều cách để tạo ra vô số loại protein.
Các cấu trúc liên kết này rất phức tạp, từ dạng chuỗi thẳng đến các cấu trúc gấp xoắn. Về cơ bản, cấu trúc của protein sẽ quyết định chức năng của nó.
Một số protein sẽ trở thành viên gạch xây dựng nên cơ thể, bởi chúng là thành phần chính của cơ bắp, da, tóc, và các mô. Một số khác sẽ trở thành enzyme xúc tác cho các phản ứng hóa học bên trong cơ thể. Một số protein trở thành hormone (ví dụ như insulin) điều hòa các quá trình hoạt động thông thường trong cơ thể; số còn lại có thể trở thành kháng thể, tức các chiến binh dũng cảm của hệ miễn dịch, giúp bảo vệ cơ thể khỏi nhiễm trùng v.v
Mặc dù các nhà hóa học nhận thức được tầm quan trọng của protein từ thế kỷ 19, phải chờ đến khi các công cụ hóa học đạt được độ chính xác cao vào những năm 1950, việc khám phá cấu trúc protein mới thực sự bắt đầu. Một bước ngoặt lớn đã đến vào cuối thập niên này khi John Kendrew và Max Perutz, hai nhà khoa học đến từ Đại học Cambridge, đã sử dụng kỹ thuật tinh thể học tia X để tạo ra những mô hình ba chiều đầu tiên về phân tử protein. Thành tựu xuất sắc này đã mang về cho họ giải Nobel Hóa học năm 1962.
Sau đó, trong một thời gian dài, các nhà khoa học đã sử dụng phương pháp tinh thể học tia X để tái tạo hình ảnh của khoảng 200.000 protein. Giải Nobel Hóa học năm nay đề cập đến một phương pháp khác để tiết lộ bí mật của protein: Đó là học máy và trí tuệ nhân tạo.
Làm thế nào để protein tìm ra cấu trúc độc nhất của nó?
Vào những năm 1960, Christian Anfinsen, nhà khoa học tại Viện Y tế Quốc gia Mỹ đã có một khám phá quan trọng. Sử dụng các thao tác hóa học khác nhau, ông đã khiến một protein mở ra và sau đó tự gấp lại. Điều thú vị là protein luôn gấp lại cùng một hình dạng sau mỗi lần như vậy. Năm 1961, ông kết luận rằng cấu trúc ba chiều của một protein hoàn toàn được điều khiển bởi trình tự các axit amin trong protein. Khám phá này đem lại cho ông giải Nobel Hóa học năm 1972.
Tuy nhiên, logic của Anfinsen chứa đựng một nghịch lý mà một nhà khoa học người Mỹ khác là Cyrus Levinthal chỉ ra vào năm 1969. Levinthal tính toán rằng ngay cả khi một protein chỉ bao gồm 100 axit amin, thì về lý thuyết, nó có thể có ít nhất 10^47 cấu trúc ba chiều khác nhau (nghĩa là hàng ngàn tỷ tỷ tỷ tỷ cách gấp). Nếu chuỗi axit amin gấp ngẫu nhiên, nó sẽ mất một thời gian rất dài để tìm ra cấu trúc đúng. Điều này mâu thuẫn với thực tế là trong tế bào, protein gấp lại rất nhanh, chỉ mất vài mili giây.
Vậy chuỗi axit amin thực sự gấp lại như thế nào? Khám phá của Anfinsen và nghịch lý Levinthal ngụ ý rằng gấp lại là một quá trình được xác định trước. Và tất cả các thông tin liên quan đến cách gấp protein đều đã phải được mã hóa trong trình tự axit amin.
Nếu các nhà hóa học biết được trình tự axit amin của protein thì họ có thể dự đoán được cấu trúc ba chiều của protein hay không? Đây là một ý tưởng cực kỳ thú vị. Nếu ý tưởng đó thành công, các nhà khoa học sẽ không còn phải sử dụng tinh thể học tia X phức tạp và tốn nhiều thời gian nữa. Họ cũng sẽ có thể tạo ra cấu trúc cho tất cả các dạng protein mà tinh thể học tia X không áp dụng được.
Để khuyến khích lĩnh vực này phát triển nhanh hơn nữa, vào năm 1994, các nhà nghiên cứu đã bắt đầu một dự án gọi là Đánh giá quan trọng về Dự đoán Cấu trúc Protein (CASP). Dự án CASP sau đó phát triển thành một cuộc thi. Cứ hai năm một lần, các nhà nghiên cứu từ khắp nơi trên thế giới được tiếp cận với các chuỗi axit amin trong các protein mà cấu trúc của chúng vừa được xác định, nhưng họ không được tiết lộ trước. Nhiệm vụ của họ là phải dự đoán cấu trúc này dựa trên các chuỗi axit amin được cho.
CASP thu hút nhiều nhà nghiên cứu, tuy nhiên, việc giải quyết vấn đề dự đoán hóa ra lại vô cùng khó khăn. Trong nhiều năm, kết quả so sánh giữa dự đoán mà các nhà nghiên cứu tham gia cuộc thi đưa ra và cấu trúc thực tế của protein hầu như không được cải thiện. Phải đến năm 2018, Cuộc thi mới có bước đột phá khi một kiện tướng cờ vua, đồng thời là chuyên gia về khoa học thần kinh và người tiên phong trong lĩnh vực trí tuệ nhân tạo, bước chân vào lĩnh vực này. Ông tên là Demis Hassabis.
Kỳ thủ cờ vây tham gia thế vận hội protein
Demis Hassabis là một thiên tài. Ông bắt đầu chơi cờ vua từ năm bốn tuổi và đạt cấp bậc kiện tướng khi mới 13 tuổi. Ông bắt đầu sự nghiệp với tư cách một lập trình viên và nhà phát triển game thành công từ thời niên thiếu. Sau đó, Hassabis đi sâu vào lĩnh vực trí tuệ nhân tạo và theo đuổi ngành khoa học thần kinh, nơi ông áp dụng những kiến thức về khoa học thần kinh của con người để phát triển những mạng thần kinh tốt hơn cho AI và tạo ra một số bước tiến mang tính cách mạng.
Demis Hassabis đồng sáng lập ra DeepMind vào năm 2010. Đây là một công ty chuyên phát triển các mô hình AI bậc thầy cho những boardgame phổ biến. DeepMind được bán lại cho Google vào năm 2014 và chỉ hai năm sau, nó đã gây chú ý toàn cầu khi đánh bại nhà vô địch cờ vây, một thành tựu được xem là đỉnh cao của trí tuệ nhân tạo tại thời điểm đó.
Tuy nhiên, đối với Hassabis, cờ vây không phải là mục tiêu, nó chỉ là phương tiện để phát triển các mô hình AI tốt hơn. Sau chiến thắng cờ vây này, đội của ông đã sẵn sàng giải quyết các vấn đề có tầm quan trọng lớn hơn với nhân loại. Vì vậy, vào năm 2018, Hassabis đã đăng ký tham gia cuộc thi CASP lần thứ 13.
Trong những năm trước, cấu trúc protein mà các nhà nghiên cứu dự đoán cho CASP mới chỉ đạt độ chính xác tối đa 40%. Nhung mô hình AI của nhóm Hassabis đã nâng con số lên gần 60%. Kết quả xuất sắc của họ tại cuộc thi CASP khiến nhiều người bất ngờ. Không thể phủ nhận, mô hình AI có tên AlphaFold này đã tạo ra một tiến bộ đột phá. Nhưng giải pháp đó vẫn chưa đủ tốt, bởi để được coi là thành công, các dự đoán cần phải có độ chính xác 90% so với cấu trúc đích.
Hassabis và nhóm của ông tiếp tục phát triển AlphaFold - nhưng dù cố gắng đến đâu, thuật toán cũng không thể đi hết được con đường. Các nhà công nghệ của DeepMind lâm vào ngõ cụt và cảm thấy mệt mỏi. Nhưng một nhân viên mới đến DeepMind đã đưa ra ý tưởng mang tính quyết định về cách cải thiện mô hình AI. Người đó là John Jumper.
Vượt qua thách thức lớn của hóa sinh
John Jumper có niềm đam mê lớn với vũ trụ. Điều này khiến ông bắt đầu theo học ngành vật lý và toán học. Tuy nhiên, vào năm 2008, khi bắt đầu làm việc tại một công ty nghiên cứu sử dụng siêu máy tính để mô phỏng protein và động lực của chúngtên là DESRES, ông nhận ra rằng kiến thức về vật lý có thể giúp giải quyết các vấn đề y sinh.
Jumper mang theo mối quan tâm mới với protein để học lên Thạc sĩ và Tiến sĩ ngành vật lý lý thuyết. Để tiết kiệm tài nguyên tính toán - một thứ rất khan hiếm tại trường đại học - ông đã phát triển các phương pháp đơn giản và hiệu quả hơn để mô phỏng động lực của protein. Chẳng mấy chốc, ông cũng vấp phải vách tường của hóa sinh.
Vào năm 2017, khi vừa hoàn thành bằng tiến sĩ, ông nghe đồn rằng Google DeepMind bắt đầu dự đoán cấu trúc protein. Với kinh nghiệm của mình về protein, John Jumper nộp đơn xin việc và được nhận vào làm với nhóm của Hassabis. Cả hai sau đó đã cùng nhau đổi mới căn bản mô hình AI của AlphaFold.
Phiên bản mới - AlphaFold2 - sử dụng mạng thần kinh học máy tên là transformers,có khả năng tìm kiếm và nhận biết các quy luật nhất định trong khối lượng dữ liệu khổng lồ một cách linh hoạt hơn so với các phương pháp cũ. Đồng thời, nó còn có thể xác định chính xác những thông tin quan trọng cần tập trung vào để đạt được kết quả mong muốn.
AlphaFold2 được huấn luyện bằng thông tin của hơn 170.000 cấu trúc protein và trình tự axit amin đã biết. Mạng transformers giúp mô hình có thể học được những “bí quyết” về cách protein xoắn gập lại. Dựa trên nguyên tắc các chuỗi axit amin giống nhau thì gấp lại giống nhau, mô hình AI sẽ tìm trong kho dữ liệu đã biết xem có cấu trúc cục bộ của một đoạn bị mất thông tin không rồi dùng nó để tiên đoán vị trí của những axit amin chưa xác định được.
Kiến trúc AI mới này đã giúp Google DeepMind duy trì vị thế dẫn đầu trong cuộc thi CASP lần thứ mười bốn. Vào năm 2020, khi các nhà tổ chức CASP đánh giá kết quả, họ hiểu rằng bài toán thách thức 50 năm của ngành hóa sinh đã đến hồi kết. Trong hầu hết các trường hợp, AlphaFold2 thực hiện gần như tốt tương đương với tinh thể học tia X.
Năm 2021, Google DeepMind đã mở mã nguồn AlphaFold2, đồng thời chia sẻ toàn bộ dữ liệu huấn luyện cho cộng đồng. Nhờ đó, một loạt các phòng thí nghiệm sinh học phân tử trên khắp thế giới có thể dùng công cụ đó vào các mục đích riêng của mình.
Hiện nay, Google DeepMind đã cùng đối tác Isomorphic Labs phát triển mô hình AlphaFold3, có thể dự đoán tương tác giữa protein và một loạt các phân tử khác, bao gồm DNA, RNA v.v. Đây sẽ là một bước tiến xa hơn trong lĩnh vực thiết kế thuốc.
Thiết kế protein mới
Nếu như John Jumper và Demis Hassabis được vinh danh và chia sẻ một nửa giải thưởng Nobel Hóa học năm nay vì thành tựu “dự đoán cấu trúc protein", thì nửa còn lại của giải được quyết định trao cho David Baker bởi những đóng góp to lớn của ông trong việc sử dụng máy tính để “thiết kế tính toán các protein” mới.
Hơn hai thập kỷ trước khi DeepMind nghiên cứu AlphaFold, nhà sinh lý học tính toán David Baker và cộng sự của ông tại Đại học Washington đã phát triển một công cụ phần mềm có tên là Rosetta nhằm mô hình hóa các cấu trúc protein theo nguyên tắc vật lý và sinh học.
Baker đã tham gia cuộc thi CASP năm 1998 và đạt thành tích khá tốt bằng phần mềm Rosetta. Từ thành công này, ông và các đồng nghiệp nảy ra ý tưởng sử dụng Rosetta theo cách ngược lại: Thay vì nhập chuỗi axit amin vào Rosetta và nhận được cấu trúc protein, họ có thể nhập một cấu trúc protein mong muốn và nhận được gợi ý về chuỗi axit amin của nó. Điều này mở ra khả năng tạo ra các protein hoàn toàn mới.
Lĩnh vực thiết kế protein - nơi các nhà nghiên cứu tạo ra các protein riêng biệt với các chức năng mới - bắt đầu cất cánh vào cuối những năm 1990. Trong nhiều trường hợp, các nhà nghiên cứu chỉnh sửa những protein hiện có để chúng có thể thực hiện những công việc như phân hủy hóa chất độc hại hoặc làm chất xúc tác cho quá trình sản xuất công nghiệp.
Tuy nhiên, protein tự nhiên có giới hạn. Để tăng khả năng thu được các protein có chức năng hoàn toàn mới, nhóm nghiên cứu của Baker đã quyết định tạo ra các protein mới từ đầu, dựa trên các nguyên tắc cơ bản của sinh học. Lĩnh vực này được gọi là thiết kế de novo.
Để làm điều này, Rosetta đã lục trong cơ sở dữ liệu của tất cả các cấu trúc protein đã biết và tìm kiếm các đoạn của protein có điểm tương đồng với cấu trúc mong muốn. Sử dụng kiến thức căn bản về các trạng thái năng lượng khác nhau của một phân tử, Rosetta đã tối ưu hóa các đoạn này và đề xuất ra một chuỗi axit amin.
Nhằm kiểm tra mức độ thành công của đề xuất mà Rosetta đưa ra, Baker đã cấy chuỗi axit amin này vào gene của một loại vi khuẩn để chúng sản xuất ra protein thật. Sau đó, họ dùng phương pháp tinh thể học tia X để xác định cấu trúc của protein được nuôi cấy.
Hóa ra Rosetta thực sự có thể xây dựng được protein. Protein mang tên Top7 mà các nhà nghiên cứu nuôi được có cấu trúc gần chính xác như những gì họ đã thiết kế.
Top7 là một bất ngờ lớn trong lĩnh vực thiết kế protein. Trước đây, người ta chỉ có thể tạo ra các protein de novo bằng cách bắt chước cấu trúc đã có, nhưng cấu trúc của Top7 hoàn toàn độc đáo, không tồn tại trong tự nhiên. Ngoài ra, với cấu tạo từ khối 93 axit amin, Top7 lớn hơn bất kỳ thứ gì từng được sản xuất bằng thiết kế de novo.
Baker đã công bố khám phá của mình vào năm 2003. Đây là khởi đầu cho một chuỗi phát triển phi thường các protein mới ra đời từ phòng thí nghiệm của Baker. Ông cũng công bố mã nguồn của Rosetta, vì vậy cộng đồng nghiên cứu toàn cầu có thể tiếp tục phát triển phần mềm và tìm ra các lĩnh vực ứng dụng mới.
Khi AlphaFold2 xuất hiện, Baker và nhóm nghiên cứu của mình đã tìm hiểu phần mềm này và ứng dụng vào một số phiên bản dựa trên AI của Rosetta. Phiên bản đầu tiên, RoseTTAFold, đã có năng lực gần như AlphaFold2. Đó là một mạng lưới thần kinh "ba rãnh", có nghĩa là nó đồng thời xem xét các mẫu trong trình tự protein, cách các axit amin của protein tương tác với nhau và cấu trúc ba chiều có thể có của protein.
Từ năm 2021, nhóm của Baker đã kết hợp RoseTTAFold với các mạng thần kinh khuếch tán tự sinh hình ảnh, dẫn đến một bước thay đổi trong năng lực thiết kế của các nhà nghiên cứu.
Biến nhiều năm thành vài phút
Trước đây, các nhà khoa học thường mất nhiều năm để nắm bắt được cấu trúc của một protein. Giờ đây, việc này có thể được thực hiện trong vài phút hoặc vài giờ, tùy theo độ phức tạp của protein.
Các mô hình AI như AlphaFold hay RoseTTAFold không hoàn hảo 100%, nhưng nó có khả năng đánh giá độ chính xác của cấu trúc protein mà nó tạo ra, vì vậy các nhà nghiên cứu sẽ biết được dự đoán này đáng tin cậy đến mức nào.
Với phần lớn các nhà nghiên cứu, cấu trúc dự đoán là chiếc chìa khóa mở ra cánh cửa hiểu biết về chức năng của protein, từ đó xây dựng những giả thuyết và thiết kế các thí nghiệm tiếp theo để kiểm chứng. Một số nhóm tiên phong đang dùng các mô hình AI để khám phá sâu hơn về hoạt động của protein và sự sống, bao gồm lý do tại sao một số bệnh phát triển, kháng kháng sinh xảy ra như thế nào hoặc tại sao một số vi khuẩn có thể phân hủy nhựa.
Khả năng tạo ra các protein với những đặc tính và chức năng mới của các mô hình AI cũng kinh ngạc không kém. Điều này mở ra các ứng dụng mang lại lợi ích lớn cho loài người, chẳng hạn như chế tạo các vật liệu nano mới, phát triển thuốc hướng đích, phát triển nhanh các vaccine, chế tạo những cảm biến có kích thước siêu nhỏ và tiêu thụ năng lượng tối thiểu, hoặc góp phần làm cho ngành công nghiệp hóa chất trở nên xanh hơn.
Tài liệu tham khảo