Một nhóm nghiên cứu quốc tế, dẫn đầu là các nhà khoa học từ Trường Đại học London, đã chứng minh rằng các mô hình ngôn ngữ lớn (LLM) có thể dự đoán kết quả của các nghiên cứu khoa học thần kinh được đề xuất, với độ chính xác cao hơn chuyên gia con người.

Họ bắt đầu nghiên cứu bằng cách phát triển BrainBench, một công cụ đánh giá các mô hình ngôn ngữ lớn có thể dự đoán kết quả khoa học thần kinh tốt tới mức nào.

BrainBench bao gồm nhiều cặp tóm tắt nghiên cứu khoa học thần kinh. Trong mỗi cặp, một phiên bản là tóm tắt nghiên cứu thật, mô tả bối cảnh nghiên cứu, các phương pháp được sử dụng, và kết quả nghiên cứu. Trong phiên bản khác, bối cảnh và phương pháp đều tương tự, nhưng phần kết quả đã được các chuyên gia trong lĩnh vực khoa học thần kinh liên quan chỉnh sửa thành hợp lý nhưng không chính xác.

Trong tương lai, các chuyên gia có thể hợp tác với mô hình ngôn ngữ được hiệu chỉnh để tăng tốc nghiên cứu. Nguồn: istock

Các nhà nghiên cứu đã kiểm tra 15 mô hình ngôn lớn đa mục đích và 171 chuyên gia khoa học thần kinh (tất cả đều vượt qua bài kiểm tra sàng lọc để xác nhận kiến thức chuyên môn của họ) để xem là liệu AI hay con người có thể xác định chính xác đâu là bản tóm tắt cùng kết quả nghiên cứu thật trong cặp tài liệu.

Tất cả các mô hình ngôn ngữ lớn đều xác minh chính xác hơn hẳn các nhà khoa học thần kinh. Các mô hình ngôn ngữ lớn đạt độ chính xác trung bình 81%, còn độ chính xác của con người là 63%. Ngay cả khi nhóm nghiên cứu chọn những người có chuyên môn cao nhất trong một lĩnh vực khoa học thần kinh nhất định để làm nhiệm vụ phân loại, thì độ chính xác của họ cũng chỉ đạt 66%, thấp hơn mô hình ngôn ngữ.

Ngoài ra, các nhà nghiên cứu phát hiện khi mô hình ngôn ngữ tự tin hơn về quyết định của mình thì nhiều khả năng chúng sẽ chọn đúng.

Độ tự tin của mô hình được đo bằng sự khác biệt trong mức độ bất ngờ mà mô hình phát hiện giữa các bản tóm tắt thật-giả. Khi xem hai bản tóm tắt, mô hình ngôn ngữ sẽ tính toán khả năng của từng bản và cho điểm phức tạp – biểu thị mức độ mô hình “bất ngờ” trước mỗi bản, dựa trên nền tảng kiến thức của mô hình cũng như văn cảnh (bối cảnh và phương pháp). Sự khác biệt này càng lớn thì độ tự tin càng cao, và điều này liên quan đến khả năng cao rằng mô hình đã chọn bản tóm tắt đúng.

Sau đó, các nhà nghiên cứu đã điều chỉnh một mô hình ngôn ngữ nguồn mở hiện có (một phiên bản của Mistral) bằng cách đào tạo nó trên các tài liệu khoa học thần kinh cụ thể. Mô hình mới này chuyên về khoa học thần kinh, được gọi là BrainGPT, thậm chí còn dự đoán kết quả nghiên cứu tốt hơn với độ chính xác 86% (cải thiện so với phiên bản Mistral đa mục đích, có độ chính xác 83%).

Kết quả này cho thấy mô hình ngôn ngữ lớn là một công cụ có tiềm năng mạnh mẽ trong việc tăng tốc nghiên cứu, vượt xa việc chỉ thu thập kiến thức. Trong tương lai, chuyên gia con người có thể hợp tác với các mô hình được hiệu chỉnh tốt, và không chỉ giới hạn trong lĩnh vực khoa học thần kinh.

Nghiên cứu được đăng trên tạp chí Nature Human Behaviour.

Nguồn: