Các mô hình ngôn ngữ lớn (LLM) đã liên tục cải thiện khả năng xử lý và tạo ra ngôn ngữ của người trong vài năm qua. Tuy nhiên, chúng ta vẫn chưa rõ mức độ tương đồng giữa các mô hình này với các quá trình thần kinh hỗ trợ xử lý ngôn ngữ trong não người.
Trong một bài báo khoa học mới được công bố trên Nature Machine Intelligence,các nhà nghiên cứu từ Đại học Columbia và Viện nghiên cứu Y khoa Feinstein thuộc mạng lưới chăm sóc sức khỏe phi lợi nhuận Northwell Health cho biết khi các mô hình LLM trở nên tân tiến hơn, chúng không chỉ hoạt động hiệu quả hơn mà còn giống não người hơn.
Gavin Mischler - tác giả chính của nghiên cứu, chia sẻ: “Một số bài báo khoa học trước đây đã chỉ ra rằng các nhúng từ vựng của GPT-2 [lớp nắm bắt các thuộc tính ngữ nghĩa và cú pháp của các từ, cho phép các lớp khác của mô hình LLM xử lý các từ này hiệu quả hơn] có sự tương đồng nhất định với các phản ứng với từ ngữ được ghi lại trong não người. Nhưng GPT-2 nay đã lỗi thời so với các mô hình mạnh hơn như ChatGPT.”
Mục tiêu chính của Mischler và các đồng nghiệp là xác định xem các mô hình LLM mới nhất có biểu hiện các điểm tương đồng với não người hay không. Điều này có thể cải thiện hiểu biết về cả trí tuệ nhân tạo và não bộ, đặc biệt là về cách chúng phân tích và tạo ra ngôn ngữ.
Nhóm đã kiểm tra 12 mô hình LLM nguồn mở được phát triển trong vài năm qua, có kiến trúc gần như giống hệt nhau và số lượng tham số tương tự. Đồng thời, nhóm ghi lại các phản ứng thần kinh trong não của bệnh nhân phẫu thuật thần kinh khi họ nghe bài nói, bằng cách sử dụng các điện cực cấy vào não như một phần của quá trình điều trị.
Các mô hình LLM cũng được cung cấp văn bản tương ứng với bài nói mà các bệnh nhân đã nghe, và các nhúng từ vựng của chúng được trích xuất. Sau đó, để ước tính mức độ tương đồng giữa các mô hình LLM và não, nhóm nghiên cứu tìm cách dự đoán các phản ứng thần kinh được ghi lại đối với các từ trong các nhúng được trích xuất. Khả năng dự đoán các phản ứng của não đối với các từ trong các nhúng giúp nhóm biết được mức độ giống nhau giữa các mô hình LLM và não người, đặc biệt ở các vùng não xử lý ngôn ngữ.
Cụ thể, nhóm nhận thấy khi các mô hình LLM trở nên mạnh hơn (ví dụ, đưa ra các câu trả lời tốt hơn, như ChatGPT), các nhúng từ vựng của chúng trở nên giống hơn với các phản ứng thần kinh của não đối với ngôn ngữ.
Bên cạnh đó, khi hiệu suất của các mô hình LLM tăng lên, sự tương đồng của chúng với cấu trúc xử lý ngôn ngữ theo từng giai đoạn trong não người cũng tăng lên.
Nghiên cứu của nhóm Mischler không chỉ cải thiện hiểu biết về trí tuệ nhân tạo mà còn có thể giúp phát triển các mô hình LLM mới có khả năng tương thích tốt hơn với các quá trình tâm lý của con người.
Nguồn:
Ngọc Đỗ