Tích hợp mô hình giới tính
Là một chỉ số quan trọng để đo lường mức độ trưởng thành về mặt sinh học của trẻ em, tuổi xương có thể nhiều hoặc ít hơn một vài tuổi so với tuổi thật của một đứa trẻ. “Khi nhìn bằng mắt thường, bố mẹ có thể nhận thấy con mình thấp bé hơn các bạn nhưng không có cách nào để kiểm tra”, TS. Nguyễn Hồng Quang, Trưởng nhóm nghiên cứu Tin học y sinh (Trung tâm Nghiên cứu Quốc tế về Trí tuệ nhân tạo BK.AI, Đại học Bách khoa Hà Nội) cho biết.
Do đó, hiện nay, các bệnh viện sẽ chụp ảnh X-quang xương (thường là xương bàn tay trái) của trẻ để xác định tuổi xương, từ đó đưa ra những chỉ định phù hợp giúp trẻ không bị chậm phát triển. Vấn đề nằm ở chỗ, đối với mỗi một bệnh nhân như vậy, “chụp ảnh thì rất nhanh nhưng để bác sỹ kiểm tra và hội chẩn được thì lại rất lâu, và nếu như không có triệu chứng bệnh rõ ràng thì việc đánh giá tuổi xương sẽ không phải là vấn đề được ưu tiên hàng đầu”, nhóm nghiên cứu cho biết.
Lý do là bởi, việc kiểm tra tuổi xương ở Việt Nam hiện nay đang được thực hiện khá “thủ công”. “Các bệnh viện thường dựa vào hai phương pháp chính là GP (Greulich & Pyle) và phương pháp TW2 (Tanner, Whitehouse) để đánh giá tuổi xương”, TS. Quang nói. “Với các phương pháp này, bác sỹ sẽ so sánh ảnh X-quang xương (hoặc từng phần xương cụ thể) với bộ hình chuẩn trong Atlas tuổi xương, rồi từ đó tính toán và đưa ra kết luận. Do làm thủ công như vậy nên công việc này không đơn giản và phải phụ thuộc nhiều vào bác sỹ chẩn đoán hình ảnh”.
Ảnh X-quang xương bàn tay trái.
Thực tế trên đã thôi thúc nhóm của TS. Quang phối hợp với các đồng nghiệp ở Đại học Victoria Wellington, Viện Công nghệ Wellington, Đại học Otago (New Zealand) và Đại học Quốc gia Singapore phát triển một phương pháp có khả năng tự động xác định tuổi xương dựa trên mạng nơ-ron tích chập (convolutional neural network). Trong bối cảnh việc ứng dụng AI vào lĩnh vực y tế đang trở thành xu hướng như hiện nay, nhóm của TS. Quang không phải là những người duy nhất nghĩ đến việc này. Song, “mặc dù nhiều phương pháp học máy đã được phát triển để đánh giá ảnh X-quang xương, các phương pháp này vẫn còn nhiều điểm hạn chế, chẳng hạn như nó cần phải được huấn luyện trên một bộ dữ liệu rất lớn”, nhóm nghiên cứu cho biết lý do họ cố gắng phát triển một mô hình đòi hỏi ít dữ liệu huấn luyện hơn.
Trong nghiên cứu
Bone age assessment and sex determination using transfer learningmới công bố trên tạp chí
Expert Systems with Applications, TS. Quang và đồng nghiệp đã sử dụng một bộ dữ liệu gồm 12,611 ảnh chụp xương bàn tay trái của trẻ từ lúc mới sinh đến khi 19 tuổi, do Hiệp hội X‑quang Bắc Mỹ công bố năm 2016 để huấn luyện cho hệ thống (do Việt Nam chưa có bộ dữ liệu như vậy). Mỗi ảnh trong bộ dữ liệu này có thông tin mô tả về tuổi xương (theo tháng) và giới tính của trẻ.
Điểm khó đầu tiên của bài toán nằm ở chỗ: đối tượng được chụp ảnh là trẻ em, do đó “ảnh chụp lên thường không đúng vị trí, có khi bị xiên, lệch, ảnh lúc rất nét, lúc lại mờ”, anh cho hay. Vậy nên bước đầu tiên họ thực hiện là tiền xử lý để chuẩn hóa hình ảnh. Cụ thể, nhóm đã huấn luyện mô hình mạng nơ-ron có tên là U-Net để phát hiện được vùng bàn tay ở trong ảnh, sau đó xác định ba điểm mốc ở đầu ngón tay cái, đầu ngón tay giữa, và điểm giữa xương cổ tay để chuẩn hóa ảnh thông qua phép quay hình học.
Và khác với các nghiên cứu trước trên thế giới, nhóm của TS. Quang không chỉ xây dựng mô hình đánh giá tuổi xương mà còn xây dựng cả mô hình nhận dạng giới tính cho ảnh. “Trên thế giới, hiện tại người ta đang huấn luyện cho toàn bộ tập dữ liệu này chỉ theo mô hình tuổi xương. Nhưng chúng tôi lại dựa trên giả định rằng, các bé gái thường dậy thì sớm hơn bé trai, thế nên nếu dùng chung một mô hình nhận dạng tuổi xương thì rõ ràng sẽ có nhiều sai lệch”, TS. Quang cho biết. Thay vào đó, họ xây dựng ba mô hình: mô hình tuổi xương chỉ được huấn luyện trên ảnh của bé trai, mô hình chỉ sử dụng ảnh của bé gái, và mô hình sử dụng dữ liệu của cả hai giới tính”.
Để kiểm tra xem yếu tố này thực sự ảnh hưởng như thế nào đến việc dự đoán tuổi xương, nhóm nghiên cứu cũng tiến hành ba thử nghiệm. Trong thử nghiệm đầu tiên, họ sử dụng mô hình hỗn hợp để xác định tuổi xương mà không phân biệt giới tính. Với thử nghiệm thứ hai, ảnh X-quang sẽ được “ẩn” thông tin về nam/nữ để cho mô hình giới tính tự dự đoán. Nếu kết quả chỉ rõ sự khác biệt và xác định được giới tính, ảnh sẽ được đưa vào mô hình tuổi xương của giới tính đó; ngược lại, ảnh sẽ được chuyển đến mô hình hỗn hợp. Và với thử nghiệm thứ ba, ảnh của mỗi giới tính (không bị ẩn đi như thử nghiệm thứ hai) sẽ được đưa với phân tích theo mô hình tuổi xương của giới tính đó.
Kết quả không nằm ngoài dự đoán của nhóm: thử nghiệm thứ hai và ba cho ra kết quả tuổi xương chính xác hơn. “Điều đó chứng tỏ, việc tích hợp thêm thông tin về giới tính vào mô hình xác định tuổi xương là một cách tiếp cận đúng đắn, giúp cải thiện được chất lượng và giảm độ sai số”, TS. Quang nhận định. Khi so sánh với các mô hình tuổi xương của các nhóm nghiên cứu trước đây - vốn không tích hợp giới tính, mô hình của nhóm TS. Quang có độ sai số thấp hơn, chỉ khoảng 0,39 hoặc 0,44 năm (các mô hình được so sánh có độ sai số khoảng 0,50 - 0,79).
Có lẽ nhiều người sẽ đặt câu hỏi, tại sao các nhóm nghiên cứu trước lại không tích hợp thêm yếu tố giới tính như vậy? “Có thể họ tập trung nhiều hơn vào lĩnh vực xử lý ảnh”, TS. Quang phỏng đoán, “và việc tích hợp thông tin giới tính vào mô hình tuổi xương cũng không đơn giản. Nếu tách mô hình tuổi xương nam/nữ thì sẽ nảy sinh vấn đề: ít dữ liệu huấn luyện, đặc biệt là đối với trẻ chưa dậy thì. Trong khi về nguyên tắc, các hệ thống học máy càng có nhiều dữ liệu thì sẽ càng chính xác”. Đó cũng là lý do nhóm nghiên cứu không huấn luyện dữ liệu theo mô hình tuổi xương nam/nữ đơn thuần mà làm theo ba mô hình, đồng thời huấn luyện thêm riêng một mô hình giới tính dựa trên phương pháp học chuyển tiếp (transfer learning) với ImageNet - cơ sở dữ liệu gồm có hàng triệu hình ảnh, từ đó giúp lựa chọn được mô hình xác định tuổi xương phù hợp.
Hứa hẹn tiềm năng lớn
Những tưởng việc kết hợp thêm yếu tố giới tính sẽ khiến cho mô hình xác định tuổi xương của nhóm TS. Hồng Quang trở nên phức tạp và khó xử lý, “thực chất phương pháp của mình lại đơn giản nhất khi so sánh với các mô hình khác”, anh cho biết và dẫn ra ví dụ về một số phương pháp trước đây sử dụng đến 18 mô hình. “Khi chạy trên máy tính, phương pháp của chúng tôi cũng xử lý rất nhanh”.
TS. Quang mường tượng rằng, nếu được áp dụng vào thực tế trong tương lai, mô hình sẽ giúp ích được rất nhiều cho các bác sỹ, nhất là khi thử nghiệm trước đây cho thấy một bác sỹ ở Mỹ sẽ có sai số lên đến 0,6 năm khi xác định tuổi xương trên cùng một tập dữ liệu mà nhóm anh sử dụng. Với hệ thống tự động, bác sỹ không chỉ rút ngắn được thời gian chẩn đoán, mà thậm chí có thể mở rộng ra tầm soát sức khỏe cho cả một địa phương nào đó.
Tất nhiên, do mô hình của nhóm TS. Quang được huấn luyện dựa trên tập dữ liệu ảnh của người Mỹ - vốn có sự khác biệt không nhỏ về thể chất so với người Việt, “chắc chắn mô hình này sẽ cần phải được huấn luyện hoặc kiểm tra lại với tập dữ liệu của người Việt thì mới có thể đảm bảo độ chính xác”. Và tin vui là số lượng dữ liệu cần thiết sẽ không quá lớn. “Với kỹ thuật học chuyển tiếp, sau khi mô hình của mình đã được huấn luyện trên 12,000 ảnh của người Mỹ rồi thì chỉ cần khoảng 2,000 - 3,000 ảnh của người Việt là đã có thể cập nhật được hệ thống với độ tin cậy tương ứng”, TS. Quang nói. Đó cũng sẽ là tiền đề để nhóm tiếp tục chỉnh sửa và hoàn thiện mô hình hơn nữa.
Dù vậy, việc xây dựng một bộ dữ liệu ảnh như thế vẫn không dễ dàng ở Việt Nam. “Dữ liệu không thể chỉ được ‘dán nhãn’ bởi một bác sỹ. Ngay cả ở Mỹ, dù đã chọn bác sỹ giỏi nhưng sai số vẫn không nhỏ nên họ phải có một hội đồng hội chẩn với 5 người để đưa ra kết quả. Muốn dán nhãn hàng nghìn ảnh, chắc chắn sẽ cần rất nhiều thời gian và công sức”, TS. Quang cho biết.