AlphaFold, trí tuệ nhân tạo của DeepMind, đã xác định được hình dạng 3D của khoảng 200 triệu protein thuộc về khoảng 1 triệu loài - tức gần như toàn bộ mọi loại protein được biết đến trên hành tinh.

Nhờ đó, kể từ bây giờ, việc xác định hình dạng 3D của hầu hết các loại protein mà khoa học biết đến sẽ đơn giản như gõ tìm kiếm trên Google.

Kết quả dự đoán được lưu trữ truy cập mở trên một cơ sở dữ liệu do DeepMind, London, thuộc sở hữu của Google và Viện Tin sinh học Châu Âu thuộc Phòng thí nghiệm Sinh học Phân tử Châu Âu (EMBL – EBI), Cambridge, Anh. “Về cơ bản, cơ sở dữ liệu này bao gồm toàn bộ vũ trụ protein,” Giám đốc điều hành DeepMind, Demis Hassabis, cho biết tại một cuộc họp báo. "Chúng ta đang bắt đầu kỷ nguyên mới của sinh học kỹ thuật số."

Cấu trúc của protein vitellogenin - tiền chất của lòng đỏ trứng - theo dự đoán của công cụ AlphaFold

Hình dạng 3D, hay cấu trúc, của protein là thứ xác định chức năng của nó trong tế bào. Hầu hết các loại thuốc hiện nay được thiết kế dựa trên thông tin về cấu trúc protein, cụ thể là cách sắp xếp các axit amin tạo thành protein.

DeepMind đã phát triển AlphaFold bằng cách sử dụng kỹ thuật học sâu. Cơ sở dữ liệu AlphaFold được công bố cách đây một năm mới chỉ bao gồm 350.000 dự đoán cấu trúc của gần như mọi protein thuộc về người, chuột và 19 sinh vật thường được nghiên cứu khác. Nhưng ngay lúc đó, AlphaFold đã gây được tiếng vang lớn trong cộng đồng khoa học sinh học. Bởi vì trước khi có các dự đoán của AI, các nhà khoa học cần các phương pháp thí nghiệm tốn thời gian và tiền bạc như tinh thể học tia X và kính hiển vi điện tử lạnh (đóng băng protein và chụp ảnh bằng cách bắn các chùm tia vào protein) để xác định cấu trúc protein.

Theo EMBL – EBI, khoảng 35% trong số hơn 214 triệu dự đoán đang có trên cơ sở dữ liệu mới cập nhật được coi là có độ chính xác cao tương đương với các phương pháp thực nghiệm nói trên. 45% khác được coi là đủ chính xác cho nhiều ứng dụng thực tế.

Với cơ sở dữ liệu cấu trúc protein mới này, nhiều hướng nghiên cứu - chẳng hạn, tìm hiểu sự tiến hóa của các protein mang đặc tính hữu ích như khả năng tiêu thụ nhựa, hoặc những hướng tiến hóa đáng lo ngại của protein, như gây ung thư - sẽ trở thành hiện thực.

Tuy nhiên một rào cản là để khai thác cơ sở dữ liệu nói trên, các nhà nghiên cứu cần tải xuống toàn bộ 23 terabyte - điều này không khả thi với nhiều nhóm nghiên cứu. Và việc lưu trữ một lượng lớn dữ liệu như vậy cũng rất tốn kém. Để giải quyết vấn đề này, nhóm phát triển AlphaFold hiện đang phát triển một công cụ phần mềm được gọi là FoldSeek, cho phép nhanh chóng tìm kiếm các protein mà nhóm nghiên cứu quan tâm, giúp thu gọn đáng kể lượng dữ liệu cần tải xuống và lưu trữ.

Nguồn: