Mới đây, Alexander Huth và các đồng nghiệp đã thành công khôi phục được ý chính của ngôn ngữ, và đôi khi là cả những cụm chính xác từ các bản ghi não chụp cộng hưởng từ chức năng (fMRI) của ba người tham gia.
Công nghệ thể hiện được ngôn ngữ từ các tín hiệu não bộ có thể mang lại lợi ích to lớn cho những người không thể nói do chấn thương não hay bệnh trạng, chẳng hạn như bệnh tế bào thần kinh vận động. Cùng lúc, nó làm dấy lên những lo ngại về quyền riêng tư cho suy nghĩ của chúng ta trong tương lai.
Nghiên cứu sinh tiến sĩ Jerry Tang chuẩn bị thu thập dữ liệu hoạt động của não bộ. Nguồn: Nolan Zunk
Giải mã ngôn ngữ
Mô hình giải mã ngôn ngữ, hay còn gọi là “máy giải mã lời nói”, hướng tới sử dụng những ghi chép hoạt động của não người để khám phá ra từ ngữ mà họ nghe thấy, tưởng tượng hay nói ra.
Cho tới nay, máy giải mã lời nói mới chỉ được sử dụng để xử lý dữ liệu từ các thiết bị được cấy trong não bộ nhờ phẫu thuật, điều này làm giới hạn khả năng hữu ích của nó. Các máy giải mã khác sử dụng bản ghi chép hoạt động của não bộ không xâm lấn lại có thể giải mã được các từ hay những cụm từ ngắn, song ngôn ngữ đứt đoạn chứ không tiếp nối.
Trong khi ấy, nghiên cứu mới này lại sử dụng tín hiệu phụ thuộc vào nồng độ oxy trong máu từ các ảnh quét fMRI, nó cho thấy những thay đổi trong lưu lượng máu và nồng độ oxy trong các khu vực khác nhau của bộ não. Bằng cách tập trung vào những kiểu mẫu hoạt động trong các vùng não và mạng lưới xử lý ngôn ngữ, các nhà nghiên cứu đã phát hiện ra máy giải mã của họ có thể được huấn luyện để tái thiết ngôn ngữ liên tục (bao gồm một số từ cụ thể và ý nghĩa tổng quan của câu).
Cụ thể, máy giải mã sẽ tiếp nhận phản hồi não của ba người tham gia khi họ lắng nghe các câu chuyện, và tạo thành những chuỗi từ ngữ mà nhiều khả năng là những phản hồi não đó đã sinh ra. Những chuỗi từ này nắm bắt rất tốt ý chính chung chung của câu chuyện, và trong một số trường hợp nó còn luận ra được những từ và cụm từ chính xác.
Người tham gia cũng được cho xem các bộ phim tắt tiếng và tưởng tượng ra câu chuyện trong khi quét não. Trong cả hai trường hợp, máy giải mã thường thành công đoán được ý chính của câu chuyện.
Chẳng hạn, một người tham gia suy nghĩ là “Tôi chưa có bằng lái xe đâu”, và máy giải mã dự đoán rằng “cô ấy còn chưa bắt đầu học lái xe nữa”.
Hơn thế, khi những người tham gia chủ động lắng nghe một câu chuyện trong khi không để tâm tới câu chuyện khác đang được bật lên đồng thời, máy giải mã có thể xác định ý nghĩa của câu chuyện được chủ động lắng nghe.
Máy giải mã có thể mô tả hành động khi người tham gia xem phim tắt tiếng
Máy giải mã hoạt động như thế nào?
Các nhà nghiên cứu bắt đầu thử nghiệm bằng việc cho từng người tham gia nằm vào trong máy quét fMRI, nó sẽ phát hiện các dấu hiệu hoạt động trên khắp bộ não. Người tham gia sẽ đeo tai nghe podcast trong 16 tiếng. Các câu chuyện đã làm phát sinh hoạt động trên khắp bộ não, chứ không ở những khu vực liên quan tới lời nói và ngôn ngữ.
Tiếp theo, họ sẽ dùng những phản hồi não này để huấn luyện máy giải mã – một mô hình tính toán cố gắng dự đoán não bộ sẽ phản hồi thế nào với những từ ngữ mà người tham gia nghe được. Sau khi huấn luyện, máy giải mã có thể dự đoán khá chính xác tín hiệu não của mỗi người khi nghe một đoạn từ nhất định.
Kế tiếp, nhóm nghiên cứu cho người tham gia nghe câu chuyện mới khi nằm trong máy quét. Rồi máy tính cố gắng tái thiết lại những câu chuyện từ hoạt động não của họ. Bước này phức tạp hơn nhiều so với giải mã từ ngữ từ tín hiệu não. Để thực hiện công việc khó khăn như vậy, các nhà nghiên cứu đã cho hệ thống sử dụng mô hình ngôn ngữ GPT gốc, tiền thân của mô hình GPT-4 ngày nay. Từ ngữ xuất hiện trong hệ thống là một phiên bản diễn giải những điều người tham gia nghe được.
Sau đó, các nhà khoa học sẽ kiểm tra độ chính xác của mỗi “phỏng đoán” bằng cách sử dụng nó để dự đoán ngược lại các hoạt động não được ghi lại trước đó, rồi so sánh kết quả thu được với hoạt động ghi được ban đầu.
Trong quá trình sử dụng nhiều tài nguyên, vô số dự đoán đã được sinh ra cùng một lúc và được xếp hạng theo cấp độ chính xác. Các nhà nghiên cứu sẽ loại bỏ những phỏng đoán nào kém và giữ lại những cái tốt. Quá trình này được tiếp tục tiến hành bằng cách phỏng đoạn từ tiếp theo trong trình tự, và cứ thế tiếp tục cho tới khi xác định được chuỗi từ chính xác nhất.
Từ ngữ và ý nghĩa
Nghiên cứu này đã phát hiện họ cần dữ liệu từ nhiều vùng não cụ thể – bao gồm mạng lưới lời nói, vùng liên kết đỉnh-thái dương-chẩm và vỏ não trước trán – thì mới đưa ra được những dự đoán chính xác nhất.
Một điểm khác biệt mấu chốt giữa công trình này và những nỗ lực trước đó là dữ liệu được giải mã. Hầu hết hệ thống giải mã liên kết dữ liệu não với các đặc điểm vận động, hoặc hoạt động ghi lại được từ các vùng não liên quan tới những bước cuối cùng của đầu ra lời nói, chuyển động của miệng và lưỡi. Trong khi đó, máy giải mã này hoạt động ở mức độ ý tưởng và ý nghĩa.
Một điểm hạn chế khi sử dụng dữ liệu fMRI là “độ phân giải về thời gian” không cao. Tín hiệu phụ thuộc vào nồng độ oxy trong máu tăng lên và giảm xuống trong chu trình khoảng 10 giây, trong thời gian đó một người có thể đã nghe được 20 từ trở lên. Do vậy, công nghệ này không thể phát hiện từng từ một, mà chỉ có thể đoán được ý nghĩa tiềm tàng của một chuỗi từ.
Vẫn chưa cần lo lắng về quyền riêng tư
Hẳn là ý tưởng về một công nghệ có thể “đọc tâm trí” sẽ làm dấy lên những lo ngại về quyền riêng tư tinh thần. Các nhà nghiên cứu sẽ tiến hành thêm các thí nghiệm để giải quyết một số nỗi lo này.
Từ tiến trình của thí nghiệm, ta có thể thấy rằng chưa cần băn khoăn về việc ý nghĩ của mình sẽ bị giải mã khi đi bộ trên phố, nếu không có sự đồng thuận và hợp tác từ chúng ta thì điều này sẽ không thể xảy ra.
Chưa kể, một máy giải mã được huấn luyện dựa trên suy nghĩ của một người lại biểu hiện không tốt khi dự đoán chi tiết ngữ nghĩa từ dữ liệu của người tham gia khác. Hơn nữa, những người tham gia có thể phá vỡ quá trình giải mã bằng cách hướng sự chú ý của họ sang một nhiệm vụ mới, chẳng hạn như đặt tên cho các con vật hoặc kể một câu chuyện khác.
Nếu trong khi nằm trong máy quét mà người tham gia di chuyển thì quá trình giải mã cũng gián đoạn, vì fMRI rất nhạy cảm với chuyển động, do vậy sự hợp tác của người tham gia là điều cần thiết. Khi xét tới những yêu cầu này và nhu cầu về tài nguyên tính toán có công suất lớn, thì ở giai đoạn này của nghiên cứu, rất khó có khả năng một người sẽ bị giải mã suy nghĩ nếu như họ không muốn.
Cuối cùng, hiện nay máy giải mã chỉ hoạt động trên dữ liệu fMRI, mà để có được hình ảnh chụp não thì cần máy móc chuyên dụng và tốn kém chi phí. Nhóm nghiên cứu có kế hoạch thử nghiệm phương pháp của họ trên dữ liệu não không xâm lấn khác trong tương lai.
Nguồn: theconversation.com, npr.org