Trong nghiên cứu được công bố trên tạp chí Patterns vào ngày 10/5, các nhà khoa học tại Viện Công nghệ Massachusetts (MIT) cảnh báo tình trạng AI đã học cách đánh lừa con người, ngay cả khi những hệ thống được đào tạo để trở nên hữu ích và trung thực.
Nhiều trường hợp AI đã qua mặt đối thủ [trong các trò chơi], lừa gạt và giả vờ là con người. Một số hệ thống AI thậm chí còn thay đổi hành vi của mình trong các bài kiểm tra an toàn mang tính giả lập, khiến các chuyên gia thẩm định tin tưởng sai lầm vào mức độ an toàn của hệ thống.
Ví dụ nổi bật nhất về sự lừa dối của AI mà các nhà nghiên cứu phát hiện trong phân tích của họ là hệ thống CICERO của công ty Meta. Đây là hệ thống AI được thiết kế để chơi Diplomacy, một trò chơi chinh phục thế giới đòi hỏi xây dựng liên minh. Mặc dù Meta tuyên bố đã huấn luyện CICERO để nó trở thành hệ thống trung thực và không bao giờ cố tình “đâm sau lưng” đồng minh con người trong trò chơi, nhưng dữ liệu thực tế cho thấy CICERO đã chơi không công bằng.
“Khi khả năng đánh lừa của các hệ thống AI ngày càng trở nên tinh vi, những mối nguy hiểm mà chúng gây ra cho xã hội sẽ ngày càng nghiêm trọng”, Peter Park, thành viên của nhóm nghiên cứu, nhận định.
Nhóm nghiên cứu kêu gọi chính phủ của các quốc gia cần xem xét vấn đề này một cách nghiêm túc, từ đó xây dựng những quy định phù hợp để ngăn chặn và giảm thiểu hành vi lừa dối của AI.
Bài đăng số 1292 (số 20/2024) KH&PT
Quốc Hùng (Theo Sciencedaily, Theguardian)