Các kỹ sư công nghệ Việt Nam đang kêu gọi cộng đồng ủng hộ 5.000 dữ liệu tiếng ho để xây dựng phần mềm AI phát hiện người dương tính với Sars-CoV-2.
Dự án này mang tên AICOVIDVN, do cộng đồng hơn 200 chuyên gia và hơn 1.000 kỹ sư người Việt thực hiện, với sự cố vấn và bảo trợ của nhiều chuyên gia y tế và AI, cùng một số nhà sáng lập của các công ty công nghệ có tên tuổi.
Theo các nhà điều hành dự án, nguyên tắc "xét nghiệm" bệnh với người dùng rất đơn giản. Khi hệ thống AI đã hoàn thiện, chỉ cần người tham gia ho vào bộ thu tiếng trên điện thoại, hệ thống AI sẽ phân tích tiếng ho và đưa ra chẩn đoán nhanh xem họ có bị nhiễm virus hay không.
Điều này hứa hẹn giúp cho việc tìm kiếm người nhiễm bệnh ở các giai đoạn khác nhau (kể cả khi chưa có triệu chứng) được nhanh chóng, thuận tiện và nhẹ nhàng hơn trên diện rộng, đặc biệt trong bối cảnh nhiều tỉnh thành phải giãn cách xã hội.
Dự án gồm 4 giai đoạn: (i) Xây dựng AI Engine trên dữ liệu tiếng ho từ nước ngoài chưa được làm sạch; (ii) Phát triển giải pháp AI trên dữ liệu tiếng ho từ Việt Nam; (iii) Thử nghiệm tích hợp giải pháp AI vào các ứng dụng, giải pháp đang được sử dụng và (iv) Đóng gói và bàn giao giải pháp tới Ban Chỉ đạo Quốc gia Phòng chống Covid-19.
Cần dữ liệu tiếng ho từ người Việt để trở nên tối ưu
Trong thời gian qua, các nhà phát
triển dự án đã xử lý làm sạch và dán nhãn hơn 7.000 mẫu dữ liệu tiếng ho
của người nước ngoài từ Thụy Sĩ, Ấn Độ và một số quốc gia khác để huấn
luyện mô hình AI.
Đến
nay, dự án đang bước vào giai đoạn 2 nhằm phát triển AI tối ưu cho
người Việt, và cần huy động ít nhất 10.000 mẫu tiếng ho, trong đó có
100-500 mẫu dương tính, để giúp cho chất lượng giải pháp được tốt hơn.
Hiện nay, dự án đang kêu gọi cộng đồng Việt Nam ủng hộ thêm 5.000 mẫu
tiếng ho mới.
"Do đặc tính tiếng ho có sự khác biệt giữa những người đến từ các quốc gia khác nhau. Vì vậy, việc có được tiếng ho từ chính người Việt là điều rất cần thiết", các thành viên dự án cho biết.
Ý tưởng của dự án này dựa trên nhiều nghiên cứu khoa học khác nhau, trong đó chủ đạo là nghiên cứu của
Đại học MIT (Mỹ) công bố vào tháng 1/2020. Tại đây, khi đối chiếu với các đối tượng được chẩn đoán bằng xét nghiệm COVID chính thức, mô hình chẩn đoán AI đã đạt được độ nhạy (phản ánh khả năng người có bệnh được chẩn đoán đúng là dương tính) đạt 98,5% và độ đặc hiệu đạt 94,2% (phản ánh khả năng người không có bệnh được chẩn đoán đúng là âm tính).
Đối với các ca nhiễm không có triệu chứng, nó đạt được độ nhạy 100% và độ đặc hiệu là 83,2%. Điều này cực kỳ quan trọng bởi việc tìm kiếm những người mắc bệnh chưa có triệu chứng là mấu chốt của bài toán. Nhóm MIT đã đệ trình giải pháp lên Cục quản lý Thực phẩm và Dược phẩm Hoa Kỳ (FDA) và đang chờ được cấp phép để ứng dụng kết quả nghiên cứu trên diện rộng.
Nhiều nhóm nghiên cứu khác cũng đang đào tạo các mô hình AI tương tự, bao gồm: dự án
Cough Against Covid của Viện trí tuệ nhân tạo Wadhwani ở Mumbai (Ấn Độ), dự án
COVID-19 Sounds của Đại học Cambridge (UK) và dự án
Coughvid của Viện Công nghệ Liên bang Thụy Sĩ Lausanne. Tuy nhiên, độ chính xác của các dự án này chênh lệch khá lớn, từ 60%-90%.
Có 4 nhóm đặc điểm sinh học, mà các
nhà nghiên cứu của MIT, cũng như đội ngũ tại Việt Nam đã sử dụng để phân
tích tiếng ho, bao gồm:
• Sự thay đổi về âm thanh được phát ra từ dây thanh quản
• Sự thay đổi về biểu đạt trạng thái cảm xúc
• Sự thay đổi về âm thanh từ phổi và đường hô hấp
• Sự thoái hoá cơ bắp
Thuật
toán AI sẽ dựa trên các tiêu chí này để phân tích hàng ngàn mẫu tiếng
ho của người dương tính với COVID-19, người không bị bệnh hay bị các
bệnh gây tổn thương phổi khác; từ đó nhận diện được các đặc điểm của tổn
thương do COVID gây ra. Đây là điều mà tai thường sẽ không phát hiện
được, ngay cả các bác sĩ.
AICOVIDVN vẫn chưa công bố rõ hai chỉ số về độ nhạy và độ đặc hiệu. Tuy nhiên, chỉ số AUC (hay hiệu suất của mô hình, được tính từ độ nhạy và độ đặc hiệu) của họ sau giai đoạn 1 đã đạt 91%, chỉ chênh khoảng 6% so với kết quả của MIT. Nhóm nghiên cứu cho rằng giải pháp của mình cần thêm nhiều dữ liệu để nâng cấp, và cần thẩm định y khoa, hiệu chỉnh để loại bỏ các sai sót chuyên môn.
Trong giai đoạn 2, họ đặt mục tiêu độ chính xác của thuật toán AI đạt trên 95%. Nếu thuận lợi, giải pháp AICOVIDVN sẽ được chuyển giao cho các cơ quan chức năng thẩm định và nâng cấp vào cuối tháng 8/2021.
AICOVIDVN là dự án y tế nhận diện COVID-19 bằng tiếng ho đầu tiên tại Việt Nam. Trước đó, các kỹ sư Việt
Nam tại tập đoàn FPT hay Bkav đã huấn luyện AI để tìm bệnh nhân COVID-19
bằng phân tích hơi thở, hay nước muối sinh lý. So với tiếng ho, dữ liệu
từ các phương pháp phân tích này có phần phức tạp hơn để xử lý.
Theo
khuyến cáo của WHO, một giải pháp xét nghiệm nhanh có thể đưa vào sử dụng nếu đảm bảo đủ hai tiêu chí:
độ nhạy đạt từ 80% trở lên và
độ đặc hiệu đạt từ 97% trở lên.
Đóng góp dữ liệu tiếng ho bằng cách nào?
Mọi người dân Việt Nam, ưu tiên đối tượng F0-F1-F2-F3 có thể vào cổng tiếp nhận dữ liệu tiếng ho trên Zalo hoặc Messenger của dự án, sau đó thu âm và nhắn tin theo cú pháp:
1. Ho (4-5 tiếng) 2. Tôi tin mình là F... (Vui lòng bỏ qua nếu chưa rõ) => và gửi file ghi âm
Trang thông tin chính thức của dự án: Website: https://www.covid.aihub.vn Fanpage: https://www.facebook.com/aicovn
|