Các mô hình ngôn ngữ lớn có thể vượt qua hầu hết các bài kiểm tra toán ở trình độ TPHT và đại học, nhưng vẫn còn cách toán học ở trình độ nghiên cứu rất xa. Liệu tình hình này còn kéo dài được bao lâu?


Các mô hình ngôn ngữ lớn (LLM) có thể trả lời câu hỏi, kể chuyện hay giải toán. Gần đây, trong lĩnh vực toán học, các mô hình hàng đầu đã vượt qua được các câu hỏi khó một cách ấn tượng. Mô hình o1 của OpenAI, được phát hành vào tháng Chín vừa qua, hiện có thể đạt điểm trên90% trong các bài kiểm tra chuẩn hóa nhằm đánh giá hiệu suất của AI trong lĩnh vực toán học trước đây. Trước đó, một mô hình AI tập trung vào toán học của Google DeepMind cũngđạt số điểm tương đương thí sinh giành Huy chương bạc tại kỳ thi Olympic Toán học dành cho học sinh THPT.

Các chuyên gia lưu ý rằng những kết quả này có thể khiến mọi người đánh giá quá cao khả năng suy luận toán học của AI. Các bài kiểm tra toán hiện tại chủ yếu ở mức trung học phổ thông hoặc đại học, cách rất xa so với toán học ở trình độ nghiên cứu, thường giải quyết những bài toán thế kỷ.

Ngoài ra, các mô hình AI có lợi thế không công bằng, do chúng được đào tạo bằng một lượng lớn dữ liệu, nên chúng có thể biết trước lời giải của các câu hỏi tương tự. Vấn đề này được gọi là ô nhiễm dữ liệu.

Các mô hình được cho là sớm muộn cũng sẽ bắt kịp các chuyên gia toán học con người. Ảnh minh họa: science.org

Công ty công nghệ Epoch AI ở California, thay vì tái chế những bài kiểm tra chuẩn hóa sẵn có, đã trả cho các chuyên gia hàng đầu hàng trăm đô-la để tạo ra những bài toán khó, độc đáo thuộc nhiều lĩnh vực. Họ yêu cầu những người đóng góp “sử dụng mọi 'tiểu xảo' để khiến bài toán trở nên 'khó nhằn' nhất có thể”. Elliot Glazer, nhà toán học tại Epoch AI, cho biết, “Có một số bài toán mà các chuyên gia con người cũng phải mất nhiều ngày mới giải được”.

Để tránh ô nhiễm dữ liệu, những người tham gia chỉ thảo luận về các vấn đề trênứng dụng tin nhắn Signal bảo mật cao và hạn chế sử dụng các trình soạn thảo văn bản trực tuyến, nơi AI có thể lén xem các nội dung của họ.

Nhóm đã thử nghiệm với sáu mô hình LLM hàng đầu, gồm các phiên bản mới nhất của OpenAI và DeepMind, trên 150 câu hỏi. Các mô hình có tối đa một phút để chuẩn bị và chạy các chương trình con giúp chúng giải các bài toán. Các nhà nghiên cứu khuyến khích những mô hình gặp kiên trì vật lộn với các bài toàn qua những lời nhắc như “hãy tiếp tục làm việc” và “đừng ngại chạy code của bạn”. Dù vậy, cũng không có mô hình nào đạt điểm hơn 2% trong bài kiểm tra. Nhưng thay vì thừa nhận thất bại, các mô hình thường đưa ra các câu trả lời sai, phản ánh sự tự tin sai lầm thường thấy của chúng.

Kevin Buzzard, nhà toán học tại Imperial College London, cho rằng, còn rất lâu nữa AI mới giải được những bài toán này. Ông nói các mô hình cần hiểu hơn về các thao tác toán học hữu ích. Vì vậy, ông tập trung dịch lời giải của các chuyên gia sang ngôn ngữ máy để đào tạo các mô hình.

Glazer thì tin rằng đời ông sẽ được chứng kiến các cỗ máy chinh phục thành công bài kiểm tra mà ông soạn ra.

Một số người lạc quan cho rằng AI giống một người đồng hành hơn là đối thủ cạnh tranh. Jeremy Avigad, nhà toán học và triết học tại Đại học Carnegie Mellon, chia sẻ, “Tôi vẫn xem AI như một công cụ, chỉ có tác dụng mở rộng khả năng đặt những câu hỏi ngày một khó hơn của chúng ta”. Ngay cả khi AI đạt đến mức đưa ra các lời giải mà chuyên gia con người không đưa ra được thì các nhà toán học vẫn giữ vai trò quan trọng trong việc hiểu những lời giải đó.

Nhưng Maia Fraser, nhà toán học và khoa học máy tính tại Đại học Ottawa, lại lo ngại về tác động xã hội của AI trong lĩnh vực toán học vàkhả năng nó có thể dẫn đến một hệ sinh thái độc quyền, nơi chỉ những tổ chức hàng đầu với quyền tiếp cận các mô hình tốt nhất mới có thể đóng góp vào nghiên cứu. Bà cho rằng trước khi AI vượt mặt các chuyên gia con người, giới toán học cần suy nghĩ về những câu hỏi như: ai có quyền tiếp cận các công cụ này, việc đào tạo chúng tiêu tốn bao nhiêu năng lượng, và mục đích thực sự chúng ta muốn đạt được là gì. Bà nhấn mạnh: “Điều này thực sự không còn xa, bây giờ chính là thời điểm chúng ta phải can thiệp.”



Nguồn: