Các mô hình ngôn ngữ lớn đạt điểm trung bình cao hơn con người khi thực hiện Tác vụ tìm công dụng thay thế, một trong các bài kiểm tra thường được dùng để đo lường khả năng sáng tạo.

Cụ thể, các nhà nghiên cứu yêu cầu ba chatbot AI (ChatGPT, GPT-4 và Copy.Ai) trong 30 giây đưa ra nhiều cách sử dụng cho các vật dụng thường ngày (sợi dây, hộp, bút chì và nến).

Câu lệnh của nhóm nghiên cứu yêu cầu các mô hình ngôn ngữ lớn đưa ra cả cách sử dụng nguyên bản và cách sử dụng mới cho từng vật dụng, với lưu ý rằng chất lượng của ý tưởng quan trọng hơn số lượng. Mỗi chatbot được hỏi 11 lần cho mỗi vật dụng. Yêu cầu tương tự được đưa ra cho 256 người tham gia.

Ảnh minh hoạ

Các nhà nghiên cứu đã sử dụng hai phương pháp để đánh giá phản ứng của cả AI và người tham gia. Đầu tiên là một thuật toán đánh giá mức độ tương đồng giữa cách sử dụng được đưa ra và công dụng ban đầu của vật dụng, càng tương đồng có nghĩa là càng kém sáng tạo. Thứ hai là đánh giá của một nhóm gồm sáu người. Những người này không biết rằng một số câu trả lời đã được tạo ra bởi AI. Họ đánh giá từng câu trả lời theo thang điểm từ 1 đến 5. Trong đó, 1 có nghĩa là rất giống với công dụng ban đầu và không hề sáng tạo, 5 là rất sáng tạo. Điểm cuối cùng dành cho AI và người tham gia sẽ là điểm trung bình cộng của hai phương pháp đánh giá.

Nhóm chatbot có điểm trung bình cao hơn so với nhóm người tham gia. Trong khi đó nhóm người tham gia có điểm phân cực hơn - điểm cao nhất của người tham gia cao hơn điểm cao nhất của chatbot, nhưng điểm thấp nhất cũng thấp hơn điểm thấp nhất của chatbot.

Điểm số không thể hiện khả năng sáng tạo

Mục đích của nghiên cứu không phải là để chứng minh rằng các AI có khả năng thay thế con người trong vai trò sáng tạo, nhưng kết quả đã đặt ra những câu hỏi triết học về những đặc điểm chỉ có ở con người, theo Simone Grassini, chuyên gia tâm lý học tại Đại học Bergen (Na Uy), người đồng dẫn đầu nghiên cứu.

"Chúng tôi đã chứng minh rằng trong vài năm qua, công nghệ đã có một bước tiến rất lớn trong việc bắt chước hành vi của con người", Grassini nói.

Việc máy móc có thể thực hiện tốt các tác vụ được thiết kế để đo lường khả năng sáng tạo ở con người không chứng tỏ rằng chúng có khả năng sáng tạo hay tạo ra các suy nghĩ nguyên bản, Ryan Burnell, chuyên gia tại Viện Alan Turing, người không tham gia nghiên cứu, lưu ý.

"Khả năng cao là một mô hình không nảy ra ý tưởng sáng tạo mới, nó chỉ dựa trên những thứ nó thấy trong dữ liệu đào tạo, và có thể dữ liệu đó đã bao gồm cả Tác vụ tìm công dụng thay thế”, Burnell giải thích. “Nếu như vậy, tác vụ không đo lường sự sáng tạo mà đo lường những gì mô hình đã học về loại nhiệm vụ này".

Điểm hữu ích của nghiên cứu là chỉ ra sự khách biệt giữa cách máy móc và con người tiếp cận một số vấn đề nhất định, theo Anna Ivanova, nhà nghiên cứu các mô hình ngôn ngữ tại Viện Công nghệ Massachusetts, người không tham gia nghiên cứu mới.

Ivanova cho rằng phân tích kỹ hơn liên kết giữa nhiệm vụ mà chúng ta yêu cầu AI hoàn thành và khả năng nhận thức mà chúng ta muốn đo lường. "Không nên giả định rằng con người và mô hình tính toán giải quyết vấn đề theo cách giống nhau", cô nói.

Nghiên cứu mới đã được công bố trênScientific Reports.

Nguồn: