Mô hình học sâu do TS. Nguyễn Hồng Quang (ĐH Bách khoa Hà Nội) và cộng sự phát triển không chỉ hứa hẹn giúp các bác sỹ nhanh chóng đánh giá được nồng độ kháng sinh ức chế tối thiểu với vi khuẩn kháng thuốc, mà còn phù hợp với điều kiện cơ sở hạ tầng ở Việt Nam.
Đẩy nhanh tốc độ đánh giá
Đến nay, kháng kháng sinh đã trở thành một trong những vấn đề vô cùng nghiêm trọng tại Việt Nam. Tại hội nghị khoa học toàn quốc năm 2017, một nhóm các bác sỹ đã bày tỏ lo ngại về tình trạng các cơ sở khám chữa bệnh tuyến cuối như Bệnh viện Bệnh Nhiệt đới Trung ương, Bạch Mai, Nhi Trung ương, Phổi Trung ương… đang phải đối mặt với tốc độ lan rộng của những vi khuẩn đa kháng (kháng 2 nhóm kháng sinh trở lên) và toàn kháng (kháng với tất cả kháng sinh). Theo báo cáo, tỉ lệ kháng thuốc của nhóm vi khuẩn đường ruột E.coli ở Việt Nam đã lên tới 30-40%, kháng luôn cả kháng sinh mạnh nhất là colistin. Tại một số tỉnh phía Nam, tỉ lệ kháng thuốc của E.coli lên tới hơn 74%. Tỉ lệ kháng của vi khuẩn gây nhiễm trùng K. pneumoniae lên tới gần 60%; trong khi vi khuẩn gây nhiễm khuẩn bệnh viện A.baumannii kháng với hầu hết các loại kháng sinh ở mức trên 90%.
Khi bệnh nhân nhiễm phải vi khuẩn kháng thuốc như vậy, việc các bác sỹ chọn ra được loại thuốc kháng sinh còn hiệu quả với vi khuẩn và chỉ định liều lượng thích hợp để điều trị trở thành một vấn đề vô cùng quan trọng. Tuy nhiên, “việc lựa chọn kháng sinh thích hợp không phải là một quá trình đơn giản và nhanh chóng vì muốn cung cấp chính xác các loại thuốc cho bệnh nhân thì trước đó phải xác định phân loại vi khuẩn và đánh giá nồng độ ức chế tối thiểu (MIC)”, TS. Nguyễn Hồng Quang, Trưởng nhóm nghiên cứu Tin học y sinh (Trung tâm Nghiên cứu Quốc tế về Trí tuệ nhân tạo BK.AI, Đại học Bách khoa Hà Nội) và cộng sự viết trong bài báo “eMIC-AntiKP: Estimating minimum inhibitory concentrations of antibiotics towards Klebsiella pneumoniae using deep learning” mới đăng trên tạp chí Computational and Structural Biotechnology Journal.
Giao diện của eMIC-AntiKP.
Theo TS. Quang, thông thường, khi bệnh nhân nhiễm phải vi khuẩn đa kháng, các bác sỹ sẽ lấy mẫu bệnh phẩm, nuôi cấy và làm kháng sinh đồ để đánh giá xem trong các loại kháng sinh hiện tại, kháng sinh nào còn tiêu diệt được con vi khuẩn này. “Quá trình này mất tầm một ngày trở lên. Sau đấy căn cứ vào tình trạng bệnh nhân và kết quả kháng sinh đồ, bác sỹ sẽ quyết định xem liệu pháp điều trị tiếp theo là gì và nếu cần họ có thể phải phối hợp với nhiều loại kháng sinh khác nhau để nồng độ ức chế tối thiểu (MIC) của kháng sinh có thể tiêu diệt được vi khuẩn”, TS. Quang cho hay.
Có nhiều cách để đo nồng độ ức chế tối thiểu của kháng sinh như nuôi cấy, pha loãng,... Song, “với tất cả các loại kháng sinh hiện có, việc nuôi cấy và thí nghiệm như vậy rất lâu và tốn kém”, TS. Quang cho biết. Bởi vậy, bên cạnh các phương pháp thông thường, gần đây các nhà nghiên cứu đã phát triển nhiều mô hình máy tính sử dụng các nguồn dữ liệu công khai về kháng kháng sinh lâm sàng để hỗ trợ cho các bác sỹ. Đây cũng là điểm khởi nguồn cho ý tưởng của nhóm nghiên cứu. Bên cạnh đó, việc ứng dụng kỹ thuật giải trình tự gene để xác định vi khuẩn đa kháng thuốc như vậy cũng đang dần phổ biến ở Việt Nam hơn trong những năm gần đây. Chẳng hạn, trong giai đoạn 2016 - 2020, Bệnh viện Bệnh Nhiệt đới Trung ương đã phối hợp với Đại học Cambridge, Đơn vị Nghiên cứu Lâm sàng Đại học Oxford, Viện Tin sinh học châu Âu (Vương quốc Anh) thực hiện nghiên cứu ứng dụng kỹ thuật giải trình tự toàn bộ hệ gene nhằm xác định vi khuẩn đa kháng thuốc gây nhiễm khuẩn bệnh viện và đến nay đã làm chủ được kỹ thuật này. “Khi đã giải được trình tự gene của vi khuẩn, chúng ta có thể sử dụng trình tự gene này để đưa vào một mô hình học máy bằng công nghệ học sâu, từ đó mô hình có thể dự đoán được nồng độ ức chế tối thiểu MIC của các loại kháng sinh phổ biến nhất hiện nay với chủng vi khuẩn ấy chỉ trong vài phút”, TS. Quang giải thích.
Đáp ứng với cấu hình hạn chế
Trong số các vi khuẩn kháng thuốc, nhóm nghiên cứu quyết định tập trung vào Klebsiella pneumoniae - loại vi khuẩn gây ra viêm phổi, viêm màng não và là một trong những vi khuẩn có khả năng kháng thuốc mạnh nhất hiện nay. Với bất kỳ một hệ thống học máy nào, dữ liệu để huấn luyện mô hình luôn là vấn đề tiên quyết. “Rất may là trên thế giới đã có một bộ dữ liệu của Bệnh viện Methodist Houston (Mỹ). Đây là một bộ dữ liệu khá lớn bởi bệnh viện này đã phân lập 1667 chủng vi khuẩn Klebsiella pneumoniae trong khoảng thòi gian từ tháng 9/2011-3/2017 và làm xét nghiệm ở trên 20 loại kháng sinh như Amikacin, Ampicillin, Aztreonam, Cefazolin, Cefepim,... để ra được kết quả về nồng độ ức chế tối thiểu của từng loại một”, TS. Quang cho biết.
Những tưởng đã có một bộ dữ liệu tương đối đầy đủ như vậy cùng với tiền đề là các mô hình từ những nghiên cứu trước, việc phát triển mô hình áp dụng cho Việt Nam sẽ không quá khó khăn. Song thực tế, bài toán phức tạp hơn nhiều so với những gì mà những người ngoài ngành có thể tưởng tượng. TS. Quang giải thích, trong công trình gốc của nhóm nghiên cứu bên Mỹ, sau khi giải trình tự gene, mô hình của nhóm nghiên cứu sẽ đếm các đoạn k-mer (một chuỗi k ký tự trong một chuỗi nucleotide trong chuỗi DNA) xuất hiện bao nhiêu lần, “sau đó đối chiếu, nếu con vi khuẩn này kháng với kháng sinh A, thì thường dải xuất hiện của nó với k-mer nào hay xuất hiện nhất”, TS. Quang giải thích.
Mỗi k-mer đó thường có những đặc điểm riêng, ví dụ có những đoạn gene của vi khuẩn mà người ta đã biết đó là gene kháng thuốc. “Thế thì cách làm đầu tiên là người ta sẽ đem so sánh xem nó có mang những đoạn gene kháng thuốc đấy không và xây dựng một bộ cơ sở dữ liệu về các gene kháng thuốc đấy, sau đó đối chiếu với nó”, TS. Quang cho biết. Tuy nhiên, việc đối chiếu như vậy sẽ nảy sinh vấn đề: nếu những con nào mới đột biến và chưa có ở trong cơ sở dữ liệu thì bài toán sẽ không được giải quyết, trong khi đó, “đây lại là điều xảy ra rất thường xuyên ở Việt Nam do việc sử dụng kháng sinh còn tùy tiện”.
Do đó, cần đến cách làm thứ hai, đó là sẽ không chỉ dựa vào cơ sở dữ liệu mà sẽ cho mô hình tự học để tự tìm ra các mẫu vốn có ở trong dữ liệu mà ngay cả các nhà khoa học cũng chưa phát hiện ra. Tuy nhiên, trong nghiên cứu ở Mỹ, “dữ liệu về vi khuẩn này lớn khoảng tầm 5 triệu nucleotit và họ thử với đoạn k-mer bằng 10, thế nên số lượng đoạn sinh ra quá lớn, muốn chạy được mô hình thì phải có một máy tính khổng lồ với bộ nhớ 1,5 terabyte RAM”, TS. Quang cho biết. Nếu làm theo cách này thì mô hình sẽ khó có thể ứng dụng được ở Việt Nam vì các máy tính xách tay thông thường chỉ có bộ nhớ khoảng 4 gigabyte RAM.
Để đảm bảo mô hình chỉ cần cấu hình nhỏ nhưng hiệu năng không kém đi, nhóm nghiên cứu đã nảy ra hai ý tưởng chính. “Ý tưởng đầu tiên chính là mã hóa, tức là nếu như họ phải dùng k-mer với giá trị bằng 10 khiến cho số lượng kmer sinh ra cực kỳ nhiều, thì mình chỉ dùng k-mer với giá trị bằng 8 thôi. Thứ hai, chúng tôi thiết kế một mô hình học sâu chuyên biệt, ở đây đầu vào và thành phần của mô hình này cũng phải được thiết kế rất cẩn thận để phù hợp với cấu hình máy của mình”, TS. Quang cho biết. Nhóm nghiên cứu đã huấn luyện tổng cộng 40 mô hình để đánh giá khả năng nhạy và kháng của vi khuẩn với 20 loại kháng sinh.
Khi so sánh với mô hình mới nhất và tổng quát nhất từ nghiên cứu của Mỹ, kết quả cho thấy, hiệu năng của mô hình không kém đi, thậm chí xấp xỉ và có một vài trường hợp còn cao hơn so với mô hình trước. Cụ thể, mô hình của nhóm TS. Quang có thể xác định độ kháng của vi khuẩn với Amikacin với tỉ lệ chính xác 0,958; với Ampicillin/Sulbactam với tỉ lệ chính xác 0,984;... Nhưng với việc sử dụng dữ liệu của Mỹ, liệu mô hình có thể áp dụng được ở Việt Nam ngay chưa? “Theo thời gian mình, nếu mình có nhiều dữ liệu hơn về các chủng đang lưu hành ở Việt Nam và dùng dữ liệu đó để cải tiến lại mô hình thì đương nhiên kết quả sẽ tốt hơn. Tuy nhiên, hiện nay bộ dữ liệu về các chủng đã có từ nghiên cứu trước cũng đã khá nhiều, và các chủng mới đang lưu hành ở Việt Nam cũng không phải hoàn toàn khác biệt với chủng cũ, do đó các bác sỹ Việt Nam vẫn có thể tải trình tự gene lên website của chúng tôi để so sánh được luôn”, TS. Quang cho biết.
Và với mô hình này, “chúng tôi đã giải quyết được bài toán khá quan trọng, ngay bước đầu có thể tư vấn được cho bác sỹ: thứ nhất là chủng vi khuẩn ấy còn có thể được điều trị với những loại kháng sinh nào. Thứ hai, mô hình đã đưa ra được nồng độ ức chế tối thiểu để bác sỹ quyết định dùng kháng sinh với nồng độ bao nhiêu là đủ”, TS. Quang nói. “Tất nhiên hiện nay đã có phác đồ của Bộ Y tế, nhưng rõ ràng là để làm kháng sinh đồ cho hết 20 loại kháng sinh này thì cũng là một cái rất tốn kém trong khi đó, mô hình trên máy tính này sẽ có thể đưa ra ý tưởng để bác sỹ chỉ trong vài phút”.
Trong tương lai, nhóm nghiên cứu dự định sẽ làm việc với các bác sỹ tại các bệnh viện ở Việt Nam để đánh giá chính xác diễn biến phức tạp của các gene kháng thuốc. “Lúc đấy mình có thể thiết kế ra những mô hình có thể tìm hiểu sâu hơn về cơ chế đó”, TS. Quang mường tượng.