Từ thuận toán nhận diện khuôn mặt cho Facebook, Moti Shniberg và các đồng nghiệp tại startup FDNA đã xây dựng một ứng dụng giúp phát hiện các chứng bệnh hiếm gặp ở trẻ.
Dưới ánh nắng ngày hè, Andrew đang chơi đùa trong vườn. Cha mẹ của cậu bé bốn tuổi bỗng cảm thấy có điều gì đó không ổn: Có phải do cái đầu nhỏ bất thường? Hay phải chăng là vì di chứng của cuộc phẫu thuật để xử lý dị tật bẩm sinh của cậu bé?
Họ quyết định tham khảo ý kiến của TS. Karen Gripp, Giáo sư tại khoa Nhi, Bệnh viện Nhi đồng Nemours. Để tìm hiểu kĩ hơn, bên cạnh những thủ tục thông thường, bà còn chạy chẩn đoán nhanh trên Face2Gene, một ứng dụng thị giác máy tính giúp tìm kiếm các dấu hiệu của những bệnh hiếm gặp. Hình ảnh khuôn mặt cậu bé được tải lên ứng dụng cho thấy có sự tương đồng với hội chứng Smith- Lemli-Opitz (SLO), một căn bệnh hiếm gặp với tỷ lệ mắc bệnh ở trẻ em là khoảng 1:40.000.
“Các xét nghiệm sau đó giúp xác nhận đây là bệnh di truyền. Những đặc điểm trên khuôn mặt của Andrew cho thấy cậu bé mắc SLO dạng nhẹ”, TS. Gripp nhận định. Andrew nhanh chóng được chuyển vào một phòng khám về hội chứng chuyển hóa và được điều trị bằng các loại thuốc lẫn chế độ dinh dưỡng phù hợp. “Gia đình cảm thấy may mắn vì đã phát hiện bệnh kịp thời, điều này giúp giải thích lý do vì sao Andrew gặp khó khăn trong quá trình sinh hoạt và học tập”, bà nhận định.
Những bức ảnh chụp khuôn mặt cậu bé có phải là những dấu hiệu đáng tin cậy giúp bác sĩ xác định chứng bệnh nguy hiểm này không? Face2Gene là gì, và liệu thuật toán của ứng dụng này có thể phát hiện các bệnh hiếm gặp với rất ít dữ liệu sẵn có?
Nhận diện khuôn mặt
Trên thế giới có hơn 10.000 bệnh hiếm gặp, và 75% trong số đó xuất hiện ở trẻ em. Khoảng một phần ba trong số những đứa trẻ mắc bệnh không thể sống đến thời điểm đón sinh nhật lần thứ năm của mình.
Một trong những hội chứng phổ biến nhất là Down - một rối loạn di truyền gây ra khuyết tật trí tuệ và chậm phát triển ở trẻ em. Tỷ lệ mắc Down ở trẻ là 1:700, vì vậy rất có thể chúng ta đã từng gặp một người mắc bệnh. Chỉ sau một vài lần gặp trẻ mắc Down, chúng ta dễ dàng tạo cho mình hình dung về những biểu hiện bệnh ngay lập tức: cổ ngắn, đầu nhỏ, mắt xếch, mắt tẹt v.v. Bộ não của chúng ta đã được huấn luyện để phát hiện hội chứng một cách trực quan mà không cần bất kỳ chuyên môn y tế nào.
Tuy nhiên, việc phát hiện các căn bệnh hiếm gặp lại vô cùng khó khăn - ngay cả đối với các chuyên gia. Hàng nghìn căn bệnh hiếm gặp với những dấu hiệu khác nhau, và mỗi căn bệnh chỉ ảnh hưởng đến vài nghìn trẻ em trên toàn cầu, bộ não của chúng ta không đủ ví dụ trực quan để học hỏi.
Thời điểm Moti Shniberg - nhà khoa học chuyên về thị giác máy tính - biết được những khó khăn này là vào năm 2012. Khi đó, anh vừa bán công ty khởi nghiệp về nhận diện khuôn mặt của mình cho Facebook và đang bắt đầu tìm kiếm một thử thách mới. “Tôi muốn tận dụng kiến thức chuyên môn của mình để làm điều gì đó tốt đẹp,” anh nói.
Anh có dịp trò chuyện với một bác sĩ đứng đầu trung tâm di truyền học về những khó khăn trong việc chẩn đoán các rối loạn di truyền hiếm gặp ở trẻ em. Các bác sĩ chuyên khoa thường xem xét hình dạng và diện mạo khuôn mặt của trẻ như một manh mối để xác định một số bệnh lý, chẳng hạn như hội chứng Down - hội chứng khiến khuôn mặt của trẻ có đặc trưng riêng. Tuy nhiên, nhiều bệnh khác có các dấu hiệu tinh vi hơn, và số trường hợp mắc rất hiếm.
“Ngay lập tức, chúng tôi biết rằng mình có khả năng giúp đỡ các bác sĩ”, Shniberg nhớ lại. Chỉ hai năm sau đó, Shniberg thành lập startup FDNA, công ty lập tức giới thiệu một ứng dụng có tên là Face2Gene. Nó được xây dựng dựa trên một thuật toán học máy tương tự như thuật toán trước đây nhóm nghiên cứu đã sử dụng để phát triển công nghệ nhận diện khuôn mặt; chỉ khác là thuật toán của FDNA phân tích khuôn mặt để gợi ý các rối loạn di truyền mà một người có thể mắc phải.
Trong mười năm qua, bằng cách hợp tác với các nhà di truyền học tại hơn 5.000 tổ chức trên 150 quốc gia, FDNA đã xây dựng một cơ sở dữ liệu bao gồm thông tin kiểu hình và kiểu gene của 10.000 bệnh hiếm gặp. Người dùng có thể phát hiện khoảng 300 chứng rối loạn phổ biến nhất với độ chính xác cao thông qua các thuật toán nhận diện khuôn mặt của công ty. Đối với các bệnh khác, FDNA cần ít nhất bảy bức ảnh để huấn luyện thuật toán đọc một chứng bệnh, song nhiều chứng rối loạn hiếm gặp đến mức họ không thể gom đủ bảy bức ảnh.
“Hiện tại, khoảng 70% các nhà di truyền học trên toàn thế giới sử dụng công cụ của chúng tôi”, anh tiết lộ. Bước nhảy vọt trong việc áp dụng dịch vụ khám bệnh từ xa thời đại dịch đã giúp FDNA dễ dàng tiếp cận người dùng hơn. Các bác sĩ có thể dễ dàng tích hợp ứng dụng vào các buổi khám chữa bệnh từ xa để đưa ra các khuyến nghị trực tiếp dựa trên các đặc điểm trên khuôn mặt của bệnh nhân.
Công ty có mục tiêu đầy tham vọng là mở rộng phạm vi bao phủ từ 80.000 bệnh nhân vào năm 2021 lên hơn một triệu bệnh nhân trong hai năm tới.
Cải tiến thuật toán
Nhằm đạt được mục tiêu tham vọng đó, vào tháng trước, các nhà khoa học thuộc FDNA và một số tổ chức quốc tế đã công bố kết quả thử nghiệm một thuật toán mới mang tên GestaltMatcher - được kỳ vọng có thể phân biệt khoảng 1.000 tình trạng - tăng gần gấp ba lần so với thuật toán ban đầu của FDNA. Nó hiện đã được tích hợp trong ứng dụng Face2Gene.
Ý tưởng tích hợp thuật toán mới nảy sinh vào năm 2017. Lúc bấy giờ, có hai gia đình không quen biết nhau - một ở Đức và một ở Na Uy - đã đến xin ý kiến của các bác sĩ trong vùng về trường hợp của cậu con trai có vấn đề về phát triển, hay rùng mình, khuôn mặt có hình tam giác. Các xét nghiệm về tình trạng di truyền đã biết của cả hai cậu bé đều bị bỏ trống. Nhóm bác sĩ ở mỗi quốc gia đã giải trình tự gene, từ đó phát hiện ra mỗi cậu bé có đột biến trong một gene có tên là LEMD2.
Hai nhóm bác sĩ tại Đức và Na Uy đã liên hệ với nhau thông qua trang web GeneMatcher, nơi giúp các nhà nghiên cứu tìm thấy những đồng nghiệp cũng đang phân vân về các trường hợp liên quan đến cùng một gen. Các triệu chứng tương tự của hai cậu bé cho thấy rằng đột biến hiếm gặp chung là nguyên nhân gây ra biểu hiện lạ, nhưng các nhà nghiên cứu vẫn chưa tìm được đích xác căn bệnh. Và họ đã có thêm thông tin nhờ sự kết hợp giữa nghiên cứu sinh học thông thường và một thuật toán thử nghiệm do các nhà nghiên cứu tại Đại học Bonn, những người cộng tác với FDNA, phát triển - thuật toán thử nghiệm này về sau chính là GestaltMatcher.
Các nghiên cứu trong phòng thí nghiệm cho thấy cách đột biến của hai cậu bé tác động đến tế bào tương tự với biểu hiện của bệnh progeria, một chứng rối loạn di truyền có thể dẫn đến tử vong - trong đó bệnh nhân cũng có khuôn mặt hình tam giác đặc biệt. Chứng bệnh do đột biến trong các gen có chức năng tương tự như LEMD2 gây ra.
Thuật toán thử nghiệm đã sao lưu những phát hiện này. Nó không cố gắng xác định rối loạn cụ thể của người trong ảnh. Thay vào đó, nó tính toán xem khuôn mặt của các bệnh nhân giống nhau như thế nào. Trên thực tế, hai cậu bé Na Uy và Đức có khuôn mặt rất giống nhau, mặc dù có nguồn gốc dân tộc khác nhau. Khuôn mặt của các em giống trẻ bị progeria, nhưng vẫn có sự khác biệt với progeria và các rối loạn đã biết khác. “Dường như đây là một phát hiện mới”, Felix Marbach, một bác sĩ tại Đại học Heidelberg, người đã làm việc trong dự án khi còn làm việc ở Đại học Cologne, cho biết. Nhóm các nhà nghiên cứu đã cùng nhau công bố khám phá của mình vào năm 2019. Marbach nhận định rằng việc xác định gen không ngay lập tức mở ra các phương thức điều trị mới, nhưng có thể gợi mở đến nghiên cứu tiếp theo.
Dự án cho thấy rằng các bác sĩ vẫn có thể sử dụng thuật toán nhận diện khuôn mặt để xác định các hội chứng - bất chấp ứng dụng vẫn chưa có đầy đủ dữ liệu về hội chứng đó. “Giờ đây, chúng tôi có thể nhận diện các chứng rối loạn mà hệ thống không học được hoặc không được đào tạo”, Peter Krawitz, giám đốc khoa học của FDNA và là người đứng đầu Viện gen tại Đại học Bonn, Đức cho biết.
Nhờ đó, các nhà nghiên cứu đã tích hợp một phiên bản thuật toán tinh chỉnh dành cho các trường hợp bệnh hiếm gặp hơn vào ứng dụng Face2Gene. Ứng dụng sẽ tạo biểu đồ, trong đó các khuôn mặt có cùng hội chứng sẽ được nhóm lại với nhau. Kế đó, các nhóm có những biểu hiện tương tự nhau — như progeria và rối loạn được phát hiện vào năm 2019 — được xếp gần nhau. Trong các thử nghiệm, thuật toán mới không phân biệt 300 chứng bệnh phổ biến một cách chính xác và hiệu quả ban đầu như hệ thống ban đầu của Face2Gene, nhưng nó có thể phân biệt khoảng 800 rối loạn khác mà phiên bản trước đây không thể xác định được.
Hannah Moore, trưởng nhóm cố vấn di truyền tại Greenwood Genetics ở Nam Carolina, đã sử dụng ứng dụng Face2Gene phiên bản đầu tiên để kiểm chứng các xét nghiệm hoặc thông tin mà bà tư vấn cho bệnh nhân và gia đình của họ. Bà ấy cho biết thuật toán mới thậm chí có thể hỗ trợ một số trường hợp khó nhất trong nghề. “Quá trình so sánh để tìm ra một nhóm nhỏ người có cùng biểu hiện có thể giúp bác sĩ dễ dàng xác định những bệnh mà họ chưa từng gặp phải; nói cách khác, họ đã có thêm được một phương tiện để đưa ra chẩn đoán chính xác hơn”, bà chia sẻ.