Phân tích giọng nói có thể trở thành một công cụ mà bác sĩ sử dụng để bổ trợ cho các quyết định của mình. Công nghệ này không xâm lấn như tiêm hay lấy máu, nhưng nó gây ra những lo ngại khác về quyền riêng tư.
Một người đàn ông mắc bệnh Parkinson ghi lại lời nói của mình với vợ. Những thay đổi về giọng nói liên quan đến chứng rối loạn này có thể giúp bác sĩ chẩn đoán và đánh giá các phương pháp điều trị.
Mở rộng ứng dụng
Một số công ty khởi nghiệp về phân tích giọng nói - bao gồm Winterlight Lab ở Toronto do
Frank Rudzicz, nhà khoa học máy tính tại Đại học Torontođồng sáng lập, và Aural Analytics ở Scottsdale, Arizona - hiện đang cung cấp phần mềm của họ cho các công ty dược phẩm. Công nghệ này đang được sử dụng để đánh giá liệu những người tham gia thử nghiệm lâm sàng có đáp ứng với các phương pháp điều trị hay không. "Sử dụng lời nói như một đại diện vi tế cho những thay đổi trong sức khỏe thần kinh, bạn có thể giúp thử nghiệm thuốc nhanh hơn hoặc ít nhất là xác định sớm những loại thuốc không có triển vọng," Visar Berisha, đồng sáng lập và giám đốc phân tích tại Aural Analytics, nói.
Các chứng rối loạn thoái hóa thần kinh chỉ là bước khởi đầu. Các nhà khoa học thậm chí đã xác định được các kiểu nói riêng có ở trẻ bị rối loạn phát triển thần kinh. Trong một nghiên cứu nhỏ năm 2017,
Björn Schuller, chuyên gia về nhận dạng giọng nói và cảm xúc tại Đại học Augsburg ở Đức và Đại học Imperial Londonvà các đồng nghiệp của ông đã xác định rằng thuật toán phân tích tiếng bập bẹ của trẻ sơ sinh mười tháng tuổi có thể giúp xác định chính xác trẻ nào sẽ được chẩn đoán mắc chứng rối loạn thuộc phổ tự kỷ. Thuật toán mà nhóm Schuller xem xét đã phân loại chính xác khoảng 80% trẻ tự kỷ.
Các nhà nghiên cứu cũng phát hiện ra rằng, nhiều trẻ em mắc chứng rối loạn tăng động giảm chú ý nói to hơn và nhanh hơn so với các bạn cùng lứa tuổi, và có nhiều dấu hiệu căng thẳng giọng nói hơn. Công ty PeakProfiling ở Berlin hiện đang phát triển một công cụ phân tích giọng nói lâm sàng mà họ hy vọng có thể giúp các bác sĩ chẩn đoán tình trạng rối loạn tăng động giảm chú ý.
Nhưng một số bác sĩ vẫn nghi ngờ các cách làm như vậy. Rhea Paul, chuyên gia về rối loạn giao tiếp tại Đại học Sacred Heart ở Fairfield, Connecticut, cho biết: "Một số kết quả bị thổi phồng quá mức." Bà lưu ý, trẻ bị rối loạn phát triển thần kinh thường có nhiều triệu chứng hành vi dễ quan sát. "Sự phát triển là một con đường quanh co và không phải bất kỳ đứa trẻ nào trông có vẻ như mắc chứng tự kỷ đều lớn lên trở thành một người lớn mắc chứng tự kỷ."
Bà cho biết thêm, ngay cả khi các nhà khoa học
xác định được một dấu ấn sinh học giọng nói cụ thể, có độ tin cậy cao thì nó chỉ nên được sử dụng để sàng lọc ban đầu, tìm ra những trẻ nên được đánh giá kỹ lưỡng hơn, chứ nhận dạng giọng nói không thể là công cụ đứng một mình.
Các nhà khoa học cũng đang hướng công nghệ này sang các bệnh tâm thần. Nhiều nhóm trên khắp thế giới đã phát triển các hệ thống có thể xử lý giọng nói chậm, nặng và đơn điệu, có xu hướng đặc trưng cho bệnh trầm cảm; và những nhóm khác đã xác định các dấu ấn sinh học giọng nói liên quan đến rối loạn tâm thần, tự tử và rối loạn lưỡng cực.
"Giọng nói rất phong phú về mặt tín hiệu cảm xúc," Charles Marmar, nhà tâm thần học tại Đại học New York, cho biết. "Tốc độ, nhịp điệu, âm lượng, cao độ - những đặc điểm đó cho bạn biết liệu bệnh nhân có chán nản hay không, liệu họ có bị kích động và lo lắng hay không."
Trong nghiên cứu của mình, Marmar đã sử dụng máy học để xác định 18 đặc điểm giọng nói liên quan đến chứng rối loạn căng thẳng sau chấn thương (PTSD) ở 129 cựu quân nhân nam. Bằng cách phân tích các đặc điểm này, hệ thống có thể xác định, với độ chính xác gần 90%, ai trong số các cựu chiến binh mắc PTSD.
Marmar và các đồng nghiệp của ông hiện đang mở rộng nghiên cứu sáng các đối tượng khác nhằm nhanh chóng xác định những người có thể cần đánh giá tâm thần kỹ lưỡng hơn. Ông nói: "Ứng dụng trong thế giới thực đầu tiên sẽ là để sàng lọc PTSD. Bạn có thể đánh giá 4.000 mẫu giọng nói trong vài giờ."
Các ứng dụng tương tự đã bắt đầu thâm nhập vào thế giới. Bộ Cựu chiến binh Hoa Kỳ đang nghiên cứu xem liệu một ứng dụng theo dõi sức khỏe tâm thần có thể giúp xác định các thành viên đang gặp khó khăn về tâm lý hay không. Ứng dụng nói trên dành cho điện thoại thông minh, được phát triển bởi Cogito, công ty phân tích đàm thoại ở Boston, Massachusetts, thu thập siêu dữ liệu về thói quen của người dùng - chẳng hạn như tần suất họ gọi điện hoặc nhắn tin cho người khác - và phân tích các bản ghi nhớ thoại mà người dùng lưu trên điện thoại để tìm ra các dấu hiệu khó khăn tâm lý cần hỗ trợ thêm.
Thậm chí có thể có các dấu hiệu sinh học về giọng nói cho các tình trạng dường như không liên quan gì đến lời nói. Trong một nghiên cứu từ năm 2018, các nhà khoa học phân tích mẫu giọng nói của 101 người được lên lịch chụp mạch vành đã phát hiện ra một số mẫu tần số giọng nói nhất định có liên quan đến bệnh mạch vành.
Thách thức bên ngoài phòng thí nghiệm
Máy tính có thể chọn ra các mẫu giọng khác biệt, nhưng khó hơn là hiểu ý nghĩa của những khác biệt này, và liệu chúng có ý nghĩa về mặt lâm sàng hay không. Chúng có phải là những đặc điểm cơ bản của căn bệnh được đề cập không hay chỉ đơn thuần là dấu hiệu của một số khác biệt giữa các nhóm khác nhau về độ tuổi, giới tính, kích thước cơ thể, trình độ học vấn... Bất kỳ yếu tố nào trong số đó đều có thể gây nhiễu. "Chúng tôi đang cố gắng chuyển từ việc chỉ đưa dữ liệu vào một thuật toán sang thực sự đi sâu vào các tập dữ liệu, đưa ra một mô hình về căn bệnh và sau đó mới kiểm tra mô hình đó bằng máy học," Reza Hosseini Ghomi, bác sĩ tâm thần kinh tại EvergreenHealth ở Washington,cho biết.
Hầu hết các nghiên cứu cho đến nay mới xác định được các dấu ấn sinh học tiềm năng chỉ trong một nhóm nhỏ bệnh nhân. Để đảm bảo các kết quả có thể được tổng quát hóa - và để giảm khả năng sai lệch, các nhà nghiên cứu cần kiểm tra hệ thống của họ trong các mẫu lớn hơn, đa dạng hơn và bằng nhiều ngôn ngữ. "Chúng tôi không muốn xác nhận mô hình giọng nói chỉ với 300 bệnh nhân. Chúng tôi nghĩ rằng cần 10.000 hoặc hơn," Jim Schwoebel, phó chủ tịch dữ liệu và nghiên cứu tại Sonde Health, công ty phân tích giọng nói có trụ sở tại Boston, cho biết.
Các hệ thống phân tích giọng nói sẽ không chỉ phải phân biệt người ốm với người khỏe mạnh, mà còn phải phân biệt nhiều loại bệnh tật và tình trạng khác nhau. Và chúng sẽ cần làm được điều này bên ngoài phòng thí nghiệm, trong các tình huống hằng ngày không được kiểm soát, và trên nhiều loại thiết bị tiêu dùng.
Khi phân tích các mẫu giọng nói được ghi bằng micro chất lượng cao trong phòng thí nghiệm, Julien Epps, nhà nghiên cứu nghiên cứu về xử lý tín hiệu giọng nói
tại Đại học New South Wales ở Sydney, Úc và các đồng nghiệp,
trong đó có một nhà nghiên cứu tại Sonde Health, phát hiện các trường hợp trầm cảm với độ chính xác khoảng 94%. Nhưng khi sử dụng các mẫu giọng nói mà được ghi lại trong môi trường riêng của họ trên điện thoại thông minh, độ chính xác giảm xuống dưới 75%, các nhà nghiên cứu báo cáo trong một bài báo năm 2019.
Và chỉ vì công nghệ giọng nói không xâm lấn, như tiêm hay lấy máu, không có nghĩa là nó không có rủi ro. Nó đặt ra những lo ngại nghiêm trọng về quyền riêng tư, bao gồm khả năng nhận diện các cá nhân từ các mẫu giọng nói ẩn danh, hoặc hệ thống có thể vô tình nắm bắt các cuộc trò chuyện riêng tư, và thông tin y tế nhạy cảm có thể bị bán, chia sẻ, tấn công hoặc sử dụng sai mục đích.
Nếu công nghệ không được quy định phù hợp, sẽ có nguy cơ các công ty bảo hiểm hoặc người sử dụng lao động có thể sử dụng các hệ thống này để phân tích mẫu giọng nói mà không có sự đồng ý rõ ràng, hoặc để lấy thông tin sức khỏe cá nhân, dẫn đến phân biệt đối xử với khách hàng hoặc nhân viên của họ.
"Chúng ta phải thực tế và nhận ra rằng phần lớn công nghệ này vẫn đang là nghiên cứu," Rudzicz nói. "Và chúng ta cần bắt đầu suy nghĩ về những gì sẽ xảy ra khi chúng ta đưa nó vào thực tế."
Nguồn: