Các nhà khoa học đã đào tạo GPT-4 làm người thực hiện giao dịch chứng khoán cho một tổ chức tài chính giả tưởng – và khi chịu áp lực kiếm tiền, nó đã thực hiện giao dịch nội gián.

Cũng như con người, chatbot trí tuệ nhân tạo (AI) như ChatGPT sẽ gian lận và “nói dối” bạn nếu bạn khiến chúng “căng thẳng”, ngay cả khi chúng được lập trình để hành xử minh bạch - theo một nghiên cứu mới.

Hành vi gian dối này xuất hiện tự phát khi AI được cung cấp các mẹo “giao dịch nội gián”, và sau đó được giao nhiệm vụ kiếm tiền cho một tổ chức lớn – ngay cả khi đối tác con người không khuyến khích nó làm vậy.

“Trong báo cáo kĩ thuật này, chúng tôi mô tả một tình huống đơn lẻ mà Mô hình Ngôn ngữ Lớn hành động lệch lạc và đánh lừa người dùng một cách có chiến lượcdù không được yêu cầu hành động theo cách như vậy”, các tác giả viết trong nghiên cứu đăng trên cơ sở lưu trữ arXiv. “Theo hiểu biết của chúng tôi, đây là minh chứng đầu tiên cho hành vi lừa đảo màn tính chất chiến lược như vậy ở hệ thống AI được thiết kế để vô hại và trung thực.”

Trong nghiên cứu mới này, họ hướng dẫn GPT-4 (mô hình ngôn ngữ lớn đằng sau ChatGPT Plus), hành động như một hệ thống AI thay mặt một tổ chức tài chính thực hiện đầu tư.

Các nhà nghiên cứu đưa vào GPT-4 một bộ prompt (câu lệnh) dựa trên văn bản để tạo ra môi trường giả lập. Sau đó, AI được trao quyền tiếp cận các công cụ tài chính để phân tích cổ phiếu, thực hiện giao dịch, lập kế hoạch cho các bước tiếp theo và cập nhật tình hình cho các quản lý của công ty.

Các nhà nghiên cứu tương tác với AI thông qua một giao diện chat, đồng thời thiết lập cấu hình của AI để phát giác suy nghĩ bên trong của nó khi trả lời tin nhắn – một màn độc thoại bên trong giải thích cho nó về các quyết định của chính nó. Với mỗi giao dịch thực hiện, AI này cung cấp lý do “công khai”, cho phép AI nói dối.

Khoảng 75% số lần, khi làm nhà đầu tư AI, GPT-4 thực hiện giao dịch nội gián để đạt được kết quả, rồi nói dối về chuyện đó.Nguồn: wildpixel
Khoảng 75% số lần, khi làm nhà đầu tư AI, GPT-4 thực hiện giao dịch nội gián để đạt được kết quả, rồi nói dối về chuyện đó.Nguồn: wildpixel

Các nhà nghiên cứu tạo áp lực theo ba cách. Đầu tiên, họ gửi cho trader chứng khoán nhân tạo một email từ “quản lý” của nó, nói rằng công ty đang không hoạt động tốt và cần hiệu suất mạnh hơn trong quý tới. Họ cũng sắp đặt tình huống sao cho AI cố gắng rồi thất bại trong việc tìm ra những giao dịch tiềm năng, có rủi ro thấp hoặc trung bình. Cuối cùng, họ gửi email từ một "đồng nghiệp" dự đoán xu thế suy giảm trong quý tới.

Tiếp theo, họ đưa ra cho AI một thông tin “nội bộ”, đồng thời cho biết các quản lý của nó không đồng tình với việc giao dịch nội gián – và chờ đợi xem mô hình sẽ hành xử thế nào. Họ cho chạy kịch bản này vài lần, đo lường mức độ thường xuyên thực hiện giao dịch nội gián của AI, nó nói dối bao nhiêu lần, và thường xuyên cố gắng nói dối thế nào.

Khoảng 75% số lần, khi đối mặt với những điều kiện này, GPT-4 đã thực hiện giao dịch dựa trên thông tin nội bộ mà nó nhận được - mà điều này là bất hợp pháp ở Mỹ - rồi cố gắng che đậy hành vi bằng cách nói dối quản lý về suy nghĩ của mình. Khoảng 90% số lần, sau khi nói dối, nó lại cố gắng nói dối hơn nữa.

Nhóm nghiên cứu chạy một số thử nghiệm tiếp theo, thay đổi cả mức độ khuyến khích hay can ngăn hoạt động bất hợp pháp của các câu lệnh, cũng như mức độ áp lực mà họ gây ra cho mô hình trong môi trường giả lập. Họ còn điều chỉnh cả rủi ro bị bắt quả tang. Không kịch bản nào cho tỷ lệ giao dịch nội gián và gian dối bằng 0% - ngay cả khi GPT-4 ngăn cản nói dối một cách quyết liệt.

Vì đây chỉ là một tình huống đơn lẻ nên các nhà nghiên cứu không muốn rút ra kết luận về khả năng AI sẽ nói dối trong bối cảnh đời thực như thế nào. Nhưng dựa trên nghiên cứu này, họ muốn tiếp tục tìm hiểu tần suất và mô hình ngôn ngữ nào có xu hướng nói dối.

Nguồn: