Các nhà nghiên cứu MIT đã phát triển một mô hình mạng thần kinh có thể phân tích dữ liệu thô và dữ liệu âm thanh từ các cuộc phỏng vấn để khám phá các mẫu phát ngôn biểu thị trầm cảm. Phương pháp này có thể được sử dụng để phát triển hỗ trợ chẩn đoán cho các bác sĩ lâm sàng để phát hiện dấu hiệu trầm cảm trong các cuộc trò chuyện tự nhiên.

Để chẩn đoán trầm cảm, bác sĩ lâm sàng phỏng vấn bệnh nhân, đặt câu hỏi cụ thể về tiền sử bệnh tâm thần, lối sống và tâm trạng và xác định tình trạng dựa trên phản ứng của bệnh nhân.

Trong những năm gần đây, machine-learning đã được xem là một trợ giúp hữu ích cho chẩn đoán. Ví dụ, các mô hình machine-learning đã được phát triển có thể phát hiện các từ và ngữ điệu của lời nói có thể biểu thị trầm cảm. Nhưng những mô hình này có xu hướng dự đoán rằng một người bị trầm cảm hay không, dựa trên câu trả lời cụ thể của người đó cho các câu hỏi cụ thể. Những phương pháp này là chính xác, nhưng sự phụ thuộc vào loại câu hỏi được hỏi giới hạn cách thức và nơi chúng có thể được sử dụng.

Trong một bài báo được trình bày tại hội nghị Interspeech, các nhà nghiên cứu MIT mô tả chi tiết một mô hình mạng thần kinh có thể xử lý thông tin trên văn bản thô và dữ liệu âm thanh từ các cuộc phỏng vấn để khám phá các mẫu phát ngôn biểu thị trầm cảm. Với một chủ đề mới, nó có thể dự đoán chính xác nếu cá nhân bị trầm cảm, mà không cần bất kỳ thông tin nào khác về các câu hỏi và câu trả lời.

Các nhà nghiên cứu hy vọng phương pháp này có thể được sử dụng để phát triển các công cụ phát hiện dấu hiệu của trầm cảm trong cuộc trò chuyện tự nhiên. Trong tương lai, mô hình có thể hỗ trợ nền tảng cho các ứng dụng di động theo dõi văn bản và giọng nói của người dùng để cảnh báo tình trạng căng thẳng tâm thần và gửi thông báo. Điều này có thể đặc biệt hữu ích đối với những người không thể đến gặp bác sĩ để chẩn đoán ban đầu, do khoảng cách, chi phí hoặc thiếu nhận thức rằng có điều gì đó không ổn.

Tuka Alhanai, nhà nghiên cứu thuộc Phòng thí nghiệm Khoa học máy tính và Trí tuệ nhân tạo (CSAIL), cho biết: “Những gợi ý đầu tiên của chúng ta về một người hạnh phúc, vui mừng, buồn, hoặc trầm cảm là qua giọng nói. Nếu bạn muốn triển khai các mô hình [phát hiện trầm cảm] theo cách có thể mở rộng…, hãy giảm thiểu lượng ràng buộc trên các dữ liệu được sử dụng. Bạn muốn triển khai nó trong bất kỳ cuộc trò chuyện thông thường nào và mô hình nhận ra được, từ sự tương tác tự nhiên, trạng thái tâm lý của cá nhân. ”

Tất nhiên, công nghệ này có thể được sử dụng để xác định sự đau khổ tinh thần trong các cuộc trò chuyện bình thường trong các phòng khám lâm sàng, đồng tác giả James Glass, nhà khoa học nghiên cứu cao cấp tại CSAIL, cho biết thêm. "Mỗi bệnh nhân có cách nói chuyện khác nhau, và những thay đổi mà mô hình nhìn thấy có thể là một dấu hiệu cho các bác sĩ," ông nói. "Đây là một bước tiến trong việc xem xem chúng ta có thể làm gì để hỗ trợ các bác sĩ lâm sàng."

Đồng tác giả khác trên bài báo là Mohammad Ghassemi, thành viên của Viện Kỹ thuật và Khoa học Y tế (IMES).

Mô hình không bị ràng buộc ngữ cảnh


Mô hình mạng thần kinh sẽ có khả năng chuẩn đoán trầm cảm thông qua hội thoại tự nhiên

Sự đổi mới quan trọng của mô hình nằm trong khả năng phát hiện các mẫu biểu thị của trầm cảm, và sau đó ánh xạ các mẫu đó cho các cá nhân mới, mà không có thêm thông tin. "Chúng tôi gọi nó là 'không có ngữ cảnh', bởi vì bạn không đặt bất kỳ ràng buộc nào vào các loại câu hỏi mà mô hình đang tìm kiếm và loại câu trả lời cho những câu hỏi đó", Alhanai nói.

Các mô hình khác được cung cấp một tập hợp các câu hỏi cụ thể, và ví dụ về cách một người không bị trầm cảm phản ứng và cách một người bị trầm cảm phản ứng. Ví dụ, mô hình dựa trên câu hỏi đơn giản, "Bạn có tiền sử trầm cảm không?" và sử dụng những phản hồi chính xác đó để xác định xem một cá nhân mới nào đó có bị trầm cảm hay không dựa trên cùng một câu hỏi. “Nhưng đó không phải là cách các cuộc trò chuyện tự nhiên hoạt động,” Alhanai nói.

Các nhà nghiên cứu, mặt khác, sử dụng một kỹ thuật được gọi là mô hình hóa chuỗi, thường được sử dụng để xử lý lời nói. Với kỹ thuật này, họ đưa cho mô hình các chuỗi dữ liệu văn bản và âm thanh từ các câu hỏi và câu trả lời của cả hai cá nhân trầm cảm và không trầm cảm, từng người một. Khi các chuỗi được tích lũy, mô hình đã trích xuất các mẫu giọng nói xuất hiện ở những người có hoặc không có trầm cảm. Các từ như, nói "buồn", "thấp" hoặc "xuống" có thể được ghép nối với các tín hiệu âm thanh phẳng hơn và đơn điệu hơn. Những người bị trầm cảm cũng có thể nói chậm hơn và sử dụng khoảng cách giữa các từ dài hơn. Những nhận dạng văn bản và âm thanh cho sự đau khổ tinh thần đã từng được khám phá trong nghiên cứu trước. Mô hình sẽ đưa ra xác định cuối cùng để xem có bất kỳ dấu hiệu nào dự đoán sự trầm cảm hay không.

“Mô hình này nhìn thấy chuỗi các từ hoặc phong cách nói, và xác định rằng các chuỗi này thường được nhìn thấy ở những người bị trầm cảm hay không trầm cảm”, Alhanai nói. "Sau đó, nếu nó nhìn thấy cùng một chuỗi trong các chủ đề mới, nó cũng có thể dự đoán liệu cá nhân đó có đang bị trầm cảm."

Theo thời gian, kỹ thuật sắp xếp thứ tự này cũng giúp mô hình xem xét toàn bộ cuộc trò chuyện và lưu ý sự khác biệt giữa cách mọi người bị và không bị trầm cảm nói chuyện.

Phát hiện trầm cảm

Các nhà nghiên cứu đã đào tạo và thử nghiệm mô hình của họ trên một tập dữ liệu gồm 142 tương tác từ Distress Analysis Interview Corpus chứa các cuộc phỏng vấn âm thanh, văn bản và video giữa bệnh nhân có vấn đề về sức khỏe tâm thần và trợ lý ảo do con người kiểm soát. Mỗi chủ đề được đánh giá theo mức độ trầm cảm trên thang điểm từ 0 đến 27, sử dụng Bảng câu hỏi Sức khỏe cá nhân. Điểm trên mức cắt giữa mức trung bình (10 đến 14) và mức độ nghiêm trọng vừa phải (15 đến 19) được coi là bị trầm cảm, trong khi tất cả những điểm dưới ngưỡng đó được coi là không bị trầm cảm. Trong số tất cả các đối tượng trong tập dữ liệu, 28 (20 phần trăm) được dán nhãn là bị trầm cảm.

Trong các thử nghiệm, mô hình được đánh giá bằng cách sử dụng các số liệu về độ chính xác và độ bao phủ. Độ chính xác đo xem đối tượng nào trong số các đối tượng mà mô hình xác định là trầm cảm đã được chẩn đoán là bị trầm cảm thực sự. Độ bao phủ đo tính chính xác của mô hình trong việc phát hiện tất cả các đối tượng đã được chẩn đoán là trầm cảm trong toàn bộ tập dữ liệu. Trong độ chính xác, mô hình đạt 71 phần trăm và độ bao phủ đạt được 83 phần trăm. Điểm số tổng hợp trung bình cho các số liệu đó, xem xét bất kỳ lỗi nào, là 77%. Trong phần lớn các thử nghiệm, mô hình của các nhà nghiên cứu đã vượt trội so với hầu hết các mô hình khác.

Một chìa khóa quan trọng từ nghiên cứu, Alhanai lưu ý, là, trong các thí nghiệm, mô hình cần nhiều dữ liệu hơn để dự đoán trầm cảm từ âm thanh hơn là văn bản. Với văn bản, mô hình có thể phát hiện chính xác bệnh trầm cảm bằng cách sử dụng trung bình bảy chuỗi câu hỏi. Với âm thanh, mô hình cần khoảng 30 chuỗi. “Điều đó ngụ ý rằng các mẫu hình từ ngữ dự báo trầm cảm sẽ xuất hiện nhanh hơn trên văn bản hơn so với âm thanh”, Alhanai nói. Những hiểu biết đó có thể giúp các nhà nghiên cứu MIT và những người khác, tinh chỉnh thêm các mô hình của họ.

Công trình này đại diện cho thử nghiệm “rất đáng khích lệ”, Glass nói. Nhưng bây giờ các nhà nghiên cứu tìm cách khám phá những mẫu cụ thể mà mô hình đã xác định được trên các dữ liệu thô. "Bây giờ nó giống như một hộp đen," Glass nói. “Tuy nhiên, những hệ thống này sẽ đáng tin cậy hơn khi bạn giải thích được về những gì chúng đang chọn. […] Thử thách tiếp theo là tìm ra dữ liệu nào được máy lựa chọn. ”

Các nhà nghiên cứu cũng nhằm mục đích thử nghiệm các phương pháp này trên dữ liệu bổ sung từ nhiều đối tượng hơn với các điều kiện nhận thức khác, chẳng hạn như chứng mất trí. Alhanai nói: “Nó không giống phát hiện trầm cảm, nhưng nó là một khái niệm tương tự về đánh giá, từ một tín hiệu hàng ngày trong lời nói, xem ai đó có suy giảm nhận thức hay không,” Alhanai nói.