Một nghiên cứu mới công bố tại Hội nghị Quốc tế về Học máy Biểu diễn 2025 đã phát hiện các hệ thống AI vẫn gặp khó khăn khi xem đồng hồ cơ và xác định một ngày cụ thể sẽ rơi vào thứ mấy.

Các hệ thống AI vẫn gặp khó khăn khi xem đồng hồ cơ và xác định một ngày cụ thể sẽ rơi vào thứ mấy. Ảnh: Adobe Stock
Các hệ thống AI vẫn gặp khó khăn khi xem đồng hồ cơ và xác định một ngày cụ thể sẽ rơi vào thứ mấy. Ảnh: Adobe Stock

Để khảo sát khả năng theo dõi thời gian của AI, các nhà nghiên cứu đã đưa vào các mô hình ngôn ngữ lớn đa phương thức - mô hình có thể xử lý cả thông tin hình ảnh và văn bản - một bộ dữ liệu tùy chỉnh gồm các hình ảnh đồng hồ và lịch. Các mô hình được sử dụng trong nghiên cứu bao gồm Llama 3.2-Vision của Meta, Claude-3.5 Sonnet của Anthropic, Gemini 2.0 của Google và GPT-4o của OpenAI.

Kết quả cho thấy trong 62,3% số lần thử, các mô hình này không thể xác định đúng giờ từ hình ảnh đồng hồ. Điều này là do việc đọc đồng hồ đòi hỏi khả năng lý luận không gian, khi mô hình phải phát hiện các kim chồng lên nhau, đo góc và xử lý các thiết kế đa dạng như số La Mã hoặc mặt số cách điệu.

Tương tự, khi được đưa ra câu hỏi như “Ngày thứ 153 của năm sẽ rơi vào thứ mấy?”, các hệ thống AI chỉ trả lời đúng 26,3% số lần thử. AI không chạy các thuật toán toán học mà dự đoán kết quả dựa trên các mẫu trong dữ liệu huấn luyện, nên mặc dù đôi khi nó có thể trả lời đúng các câu hỏi số học, nhưng lập luận của nó không nhất quán hay dựa trên quy tắc.

Nghiên cứu cho thấy cần có thêm các ví dụ huấn luyện nhắm mục tiêu cụ thể, cũng như suy nghĩ lại cách AI xử lý sự kết hợp giữa lý luận logic và không gian.

Nguồn: Livescience.com

Tin đăng KH&PT số 1345 (số 21/2025)