Nhóm nghiên cứu của TS. Nguyễn Chí Tín (Đại học Nevada, Reno, Mỹ) đã phát triển được mô hình học sâu scCAN có khả năng phân cụm hàng triệu dữ liệu tế bào trong một thời gian ngắn với độ chính xác cao, nhờ đó có thể tìm ra những tế bào hiếm gặp trong mẫu sinh thiết ung thư một cách hiệu quả hơn.
Tìm lối đi giữa mênh mông dữ liệu
Sự phát triển của công nghệ là một điều mà có lẽ đa phần chúng ta đều mong muốn. Tuy nhiên, sự tiến bộ ấy đôi khi lại dẫn đến một “rắc rối” không nhỏ: số lượng dữ liệu sinh ra sẽ vượt quá khả năng xử lý của con người hay các công cụ hiện có. Và thực tế ấy càng thể hiện rõ nét hơn trong những lĩnh vực còn tương đối mới, ví dụ như công nghệ giải trình tự đơn tế bào (single-cell RNA sequencing).
TS. Nguyễn Chí Tín - trưởng nhóm nghiên cứu.
Trước đây, trong suốt nhiều năm, công nghệ giải trình tự gene thông thường (bulk sequencing) chỉ cho ra dữ liệu biểu hiện gene (gene expression data) dưới dạng kết quả trung bình của toàn bộ các tế bào trong mẫu mô sinh học. Thế nhưng, với sự ra đời của công nghệ giải trình tự đơn tế bào - một công nghệ giải trình tự thế hệ mới được ứng dụng rộng rãi trong những năm gần đây, các nhà sinh học sẽ phải đối mặt với một lượng dữ liệu khổng lồ được sản sinh ra sau mỗi lần giải trình tự. “Đây là công nghệ cho phép phân tích biểu hiện gene của từng tế bào hiện diện trong mẫu để phát hiện ra các dòng tế bào hiếm. Ngày nay, trải qua nhiều cải tiến, số lượng tế bào được giải trình tự trong mỗi lần phần tích đã lên tới hàng triệu hoặc hàng chục triệu, thay vì chỉ một tế bào trong một lần phân tích như ngày xưa”, TS. Nguyễn Chí Tín cho biết.
Khúc mắc nằm ở chỗ, “từ hàng triệu tế bào như vậy, chúng ta cần phải phân loại được các tế bào thuộc vào nhóm nào và chức năng của chúng ra sao, từ đó thì các nhà sinh học mới có thể tìm hiểu từng tế bào một và đánh giá tác động của chúng”, TS. Tín cho biết. Song, hầu hết những công cụ phân cụm tế bào hiện nay đều không thể hoạt động với tập dữ liệu lớn như vậy hoặc cần rất nhiều thời gian xử lý, ngay cả với hai mô hình AI có tên SC3 và Seurat do những đại học hàng đầu thế giới như Đại học Cambridge, Harvard và Học viện công nghệ Massachusetts phát triển.
“Các phương pháp này đều phải dựa vào một công cụ của một bên thứ ba để giảm bớt chiều dữ liệu (dimensionality reduction) trước khi tiến hành phân cụm bằng các thuật toán cổ điển. Trong khi đó, hầu hết các công cụ để giảm chiều dữ liệu như vậy đều rất dễ bị ảnh hưởng bởi ‘nhiễu’ và sự đa dạng của các nguồn dữ liệu giải trình tự. Thế nên khi tiến hành phân cụm trên nhiều tập dữ liệu khác nhau, các mô hình này đều không đảm bảo được độ chính xác ổn định”, TS. Tín phân tích. “Đó là lý do việc phát triển một công cụ mới có thể phân cụm hàng triệu tế bào trong một thời gian ngắn với độ chính xác cao là điều thực sự cần thiết cho các nhà nghiên cứu sinh học”, TS. Tín nhớ lại lý do bắt tay vào phát triển mô hình mới.
Nhận thấy các phương pháp truyền thống trước đây chỉ sử dụng một mô hình học sâu để xử lý “nhiễu” - một trong những điểm thách thức lớn nhất của bài toán và là hạn chế của các mô hình cũ, nhóm của TS. Tín đã quyết định thử sử dụng đồng thời ba mô hình để giải quyết vấn đề. “Trở ngại lớn nhất của phương pháp kết hợp đồng thời ba mô hình như vậy là khả năng tái lập kết quả phân cụm”, TS. Tín nói, “bởi vậy nhóm đã tiến hành tinh chỉnh sâu vào mã nguồn của thư viện xây dựng mô hình học sâu để đảm bảo rằng kết quả phân cụm cuối cùng là đồng nhất trên nhiều nền tảng tính toán”.
Vượt trội so với các mô hình trước
Sau quãng thời gian dài nghiên cứu với tiền đề là một thuật toán được nhóm xây dựng thành công từ năm 2021, TS. Tín và các cộng sự đã phát triển được một mô hình trí tuệ nhân tạo mới có tên scCAN. Đây là một công cụ phân cụm không giám sát (unsupervised) được xây dựng dựa trên nền tảng của công nghệ học sâu, mà cụ thể hơn là bộ tự mã hóa, thuật toán Spectral Clustering (sử dụng thông tin từ các giá trị riêng của các ma trận đặc biệt) và phương pháp lấy mẫu. Kết quả nghiên cứu này mới đây đã được công bố trong bài báo “
scCAN: single-cell clustering using autoencoder and network fusion” trên tạp chí
Scientific Reports.
So sánh khả năng xử lý của các mô hình.
Không giống các phương pháp truyền thống trước đây, công cụ scCAN sẽ sử dụng hai bộ tự mã hóa khác nhau để tiến hành lọc nhiễu và giảm chiều dữ liệu, trong đó mô hình sẽ loại bỏ những gene không quan trọng và giữ lại 5,000 gene mang nhiều thông tin. “Ở bước này, dữ liệu sau khi lọc nhiễu vẫn có chiều khá lớn. Do đó, scCAN tiếp tục dùng thêm một bộ tự mã hóa để tiếp tục giảm yếu tố này xuống mà không làm mất mát những thông tin quan trọng và cần thiết cho việc phân cụm tế bào”, nghiên cứu sinh Trần Sỹ Bằng - tác giả thứ nhất của nghiên cứu - cho biết. “Phương pháp này đã được ứng dụng rộng rãi trong mảng xử lý ảnh số và cho thấy có hiệu quả cao trong việc xử lý nhiễu. Thế nên việc ứng dụng mô hình này trong scCAN có thể giúp xử lý triệt để sự ảnh hưởng của nhiễu dữ liệu tới kết quả phân cụm – điều mà các phương pháp trước đây chưa làm được”, anh lý giải.
Để giải quyết vấn đề dữ liệu quá lớn, scCAN sử dụng phương pháp lấy mẫu (chọn ngẫu nhiên một lượng tế bào nhỏ để phân cụm trước và tiến hành gán nhãn), rồi sau đó mới xử lý những tế bào chưa được phân cụm còn lại dựa vào “khoảng cách” của chúng tới các nhóm đã phân loại thành công. “Cách làm này giúp đảm bảo mô hình AI của chúng tôi vẫn xử lý nhanh chóng, ngay cả khi tập dữ liệu có nhiều hơn một triệu tế bào”, anh Bằng cho biết. Nhằm kiểm tra khả năng phân cụm của mô hình, nhóm nghiên cứu đã sử dụng 243 tập dữ liệu mô phỏng và 28 tập dữ liệu thực tế thu thập từ nhiều nguồn khác nhau như tế bào não, máu, phổi. Khi so sánh với các phương pháp khác, mô hình của nhóm TS. Tín thể hiện ưu điểm vượt trội cả về khả năng và tốc độ xử lý khi scCAN có thể phân loại chính xác hàng triệu dữ liệu trong thời gian chưa đầy một tiếng đồng hồ.
Với những người ngoài ngành, mô hình phân cụm tế bào của nhóm TS. Tín nghe có vẻ khá xa lạ. Nhưng thực ra, nó ngầm ẩn trong đó những ứng dụng mà có thể đem lại lợi ích cho hàng ngàn người không may mắc phải những căn bệnh hiểm nghèo. Dưới góc nhìn của một nhà khoa học về tin sinh, “công trình này sẽ có ý nghĩa rất lớn trong việc tạo nền tảng cho các nghiên cứu sau này, điển hình là việc phân loại bệnh nhân ung thư và dự đoán rủi ro dựa trên dữ liệu gene”, TS. Tín nhận định.
Anh dẫn ví dụ, ngay cả trong cùng một nhóm bệnh nhân bị ung thư vú thì những người này vẫn có thể mắc bệnh theo bốn loại khác nhau. “Mỗi loại lại có mức độ di căn riêng và có thể điều trị bằng nhiều phương pháp mà không nhất thiết phải dùng hóa trị. Tuy nhiên hiện nay việc chẩn đoán đúng và tiên lượng thuốc vẫn cực kỳ phức tạp, hầu hết các bệnh nhân đều được khuyên sử dụng hóa trị hoặc yêu cầu cắt bỏ một hoặc hai bên ngực để tránh nguy cơ di căn, trong khi đáng lẽ ra có những người có thể được điều trị dứt điểm bằng các phương pháp ít xâm lấn hơn”, nhóm nghiên cứu cho biết.
“Do đó, dựa vào dữ liệu giải trình tự đơn tế bào và khả năng phân cụm chính xác của công cụ scCAN, chúng ta có thể tìm ra những tế bào hiếm gặp trong mẫu sinh thiết ung thư để kiểm nghiệm xem nhóm gene nào là tác nhân đóng góp vào việc phát triển bệnh, từ đó phân loại được bệnh nhân và đưa ra phác đồ điều trị thích hợp”, TS. Tín chia sẻ về những triển vọng tương lai.
Nhóm nghiên cứu của anh cũng đã nhận được các khoản tài trợ tổng cộng hơn 8 triệu USD từ Quỹ Khoa học Quốc gia Hoa Kỳ (NSF), Viện Y tế Quốc gia Hoa Kỳ (NIH) và Cơ quan Hàng không và Vũ trụ Quốc gia (NASA) cho dự án nghiên cứu kéo dài nhiều năm nhằm ứng dụng phương pháp học máy để nâng cao hiệu quả chẩn đoán y tế. Anh cũng hợp tác với các nhà nghiên cứu ở Viện VinBigdata (Việt Nam) để thực hiện các nghiên cứu tương tự. “Và việc lựa chọn được phương pháp điều trị chính xác như vậy sẽ giúp giảm cả chi phí chăm sóc sức khỏe lẫn sự đau đớn cho người bệnh”, TS. Tín nói.