Sau hơn nửa năm ra mắt, ChatGPT bị rất nhiều người dùng phàn nàn, cho rằng nó đang trở nên “ngốc” hơn và đưa ra những câu trả lời kém chính xác hơn.

ChatGPT sử dụng hệ thống AI để đưa ra câu trả lời cho các truy vấn. Ảnh: istock
ChatGPT sử dụng hệ thống AI để đưa ra câu trả lời cho các câu hỏi truy vấn. Ảnh: istock

Đầu năm nay, khi ChatGPT – một công cụ chatbot AI có khả năng trả lời nhanh chóng mọi câu hỏi – ra mắt phiên bản miễn phí, nó đã ngay lập tức tạo ra cơn sốt trên mạng, thu hút hơn 100 triệu người dùng hoạt động hằng tháng. Đó là thời điểm đầu tháng 1/2023.

Nhờ 'trí thông minh' của mình, ChatGPT đã được người dùng khắp nơi thử nghiệm và yêu cầu nó tạo ra đủ các loại văn bản như email, bài luận, câu đố, hoặc thậm chí lập trình.

Tuy nhiên, mọi chuyện dường như đã thay đổi vào tháng 6/2023, tức hơn nửa năm sau khi ChatGPT ra mắt. Chatbot này bị rất nhiều người phàn nàn, cho rằng mô hình AI đằng sau nó đang trở nên “ngốc” hơn và đưa ra những câu trả lời kém chính xác hơn.

Đây cũng là kết luận mà nhiều người rút ra từ bài báo khoa học "Is ChatGPT's Behavior Changing Over Time?" (Có phải hành vi của ChatGPT đang thay đổi theo thời gian?”) được đăng trên arXiv do ba nhà nghiên cứu của Đại học Stanford và Đại học UC Berkeley thực hiện.

Họ đã so sánh năng lực của mô hình trí tuệ nhân tạo GPT-3.5 (được dùng vào thời điểm ChatGPT mới ra mắt) và GPT-4 (cho người dùng trả phí) trên bốn lĩnh vực: giải toán, trả lời những câu hỏi nhạy cảm, tạo mã lập trình, và suy luận trực quan.

Kết quả cho thấy, hiệu suất và hành vi của cả GPT-3.5 và GPT-4 đều “rất khác nhau”.

Hiệu suất của các mô hình GPT-4 và GPT3.5 tại hai thời điểm tháng 3/2023 và tháng 6/2023. Ảnh: James ZouNhóm nghiên cứu

1/ Giải toán

GPT-4 hồi tháng 3/2023 rất giỏi trong việc xác định xem một số có phải số nguyên tố hay không (độ chính xác 97,6%). Tuy nhiên, đến tháng 6/2023, GPT-4 lại có kết quả cực kì kém đối với những câu hỏi tương tự (độ chính xác 2,4%).

Ngược lại, điều bất ngờ là phiên bản GPT-3.5 hồi tháng Sáu lại tốt hơn nhiều so với hồi tháng Ba trong nhiệm vụ này.

2/ Trả lời các câu hỏi nhạy cảm

GPT-4 ít sẵn sàng trả lời các câu hỏi nhạy cảm hơn, từ 21,0% trong phiên bản tháng Ba xuống còn 0,3% trong phiên bản tháng Sáu. Trong khi đó, tỷ lệ trả lời của GPT-3.5 tăng lên, từ 2% hồi tháng Ba lên 8% vào tháng Sáu.

Trong cả hai mô hình, phiên bản tháng Ba đều trả lời dài hơn và sẽ đưa ra lý do chi tiết khi từ chối trả lời các yêu cầu. Phiên bản tháng Sáu có xu hướng trả lời ngắn hơn, và sẽ chỉ nói "Xin lỗi, nhưng tôi không thể giúp đỡ" mà không đưa thêm lý do gì.

3/ Tạo mã lập trình

Theo thời gian, cả hai mô hình GPT-4 và GPT-3.5 đều có nhiều lỗi định dạng hơn trong quá trình viết mã lập trình.

Số lượng các đoạn mã lập trình mà GPT-3.5 và GPT-4 viết ra có thể chạy được đều giảm đáng kể từ hồi tháng ba đến tháng sáu. Các phiên bản tháng 6 liên tục bổ sung thêm những đoạn văn bản không phải mã lập trình vào câu trả lời của nó - chẳng hạn như dấu ngoặc kép - khiến cho cả đoạn mã viết ra đều không thể chạy được.

4/ Suy luận trực quan

Đã có những cải tiến nhỏ về hiệu suất suy luận trực quan cho cả GPT-4 và GPT-3.5. Nhưng đối với hơn 90% các câu đố trực quan, phiên bản tháng Ba và tháng Sáu đều tạo ra cùng một câu trả lời.

Phân biệt "khả năng" và"hành vi"

Một khái niệm cần hiểu về chatbot AI là có sự khác biệt lớn giữa “khả năng” và “hành vi” của AI.

Khả năng của chatbots có được thông qua đào tạo trước (Pre-training). Đó là một quá trình tốn kém và đắt đỏ, mất hàng tháng trời, vì vậy nó không bao giờ được lặp lại. Trong khi đó, hành vi của chatbots bị ảnh hưởng bởi hoạt động tinh chỉnh (Fine-tuning), hay còn gọi là đào tạo bổ sung, xảy ra sau quá trình đào tạo trước. Tinh chỉnh rẻ hơn nhiều và được thực hiện thường xuyên.

Mô hình ChatGPT ban đầu không trò chuyện với người dùng. Hành vi trò chuyện chỉ phát sinh thông qua tinh chỉnh.

Biết được tất cả những điều này, chúng ta trông đợi khả năng của một mô hình sẽ giữ nguyên theo thời gian trong khi hành vi của chúng có thể thay đổi đáng kể. Điều này hoàn toàn phù hợp với những gì bài nghiên cứu phát hiện.

Bài báo của Stanford và UC Berkeley đang lan truyền nhưng bị nhiều người hiểu sai. Họ dùng bài báo để củng cố cho kết luận ChatGPT đang trở nên “tồi tệ” hoặc “ngu ngốc hơn” trong vài tháng qua.

Thực tế là chúng ta không có bằng chứng về sự suy giảm năng lực của AI, chỉ có bằng chứng về sự thay đổi hành vi của nó, theo hai tác giả Arvind Narayanan và Sayash Kapoor của cuốn sách AI Snake Oil.

Giả thuyết về hỗn hợp các chuyên gia

Vấn đề suy giảm hiệu suất của ChatGPT đã được người dùng ghi nhận từ vài tháng trở lại đây. Ông Peter Yang, trưởng nhóm sản phẩm của Roblox, từng lưu ý rằng các câu trả lời của GPT-4 được tạo ra nhanh hơn so với trước đây, "nhưng chất lượng có vẻ kém hơn".

Các nhà quan sát công nghệ đưa ra nhiều phỏng đoán để giải thích cho vấn đề này, chẳng hạn như OpenAI đã chuyển từ một mô hình lớn sang nhiều mô hình nhỏ hơn ở phía sau để tiết kiệm GPU; thực hiện các hoạt động tinh chỉnh để giảm các nội dung đầu ra có hại không mong muốn; và một số thuyết âm mưunhư OpenAI cố tình làm giảm khả năng mã hóa của GPT-4 để nhiều người sẽ trả tiền cho GitHub Copilot.

Trong khi đó, OpenAI liên tục phủ nhận bất kỳ tuyên bố nào cho rằng GPT-4 đã suy giảm khả năng. Gần đây nhất ngày 14/7, phó giám đốc phụ trách sản phẩm OpenAI Peter Welinder đã tweet, "Không, chúng tôi không làm cho GPT-4 ngu ngốc hơn. Hoàn toàn ngược lại: chúng tôi làm cho mỗi phiên bản mới thông minh hơn phiên bản trước. Giả thuyết hiện tại là: Khi bạn sử dụng nó nhiều hơn, bạn bắt đầu nhận thấy những vấn đề mà bạn chưa từng thấy trước đây”.


Giả thuyết đầu tiên về việc chuyển từ một mô hình lớn sang nhiều mô hình nhỏ hơn có vẻ được đông đảo chuyên gia thảo luận nhất. Cách tiếp cận này được gọi là Hỗn hợp các chuyên gia (Mix of Expert – MOE). Các mô hình chuyên gia nhỏ hơn được đào tạo các nhiệm vụ và lĩnh vực riêng biệt, có nghĩa là có thể có một mô hình GPT-4 chuyên về sinh học, một mô hình chuyên về vật lý hay hóa học, v.v.

Khi người dùng GPT-4 đặt câu hỏi, hệ thống mới sẽ biết mô hình chuyên gia nào là phù hợp để gửi truy vấn đó. Trong một số trường hợp, hệ thống có thể quyết định gửi một truy vấn đến hai hoặc nhiều mô hình chuyên gia, sau đó tổng hợp kết quả.

Có hai lý do kỹ thuật chính để sử dụng tiếp cận MOE: phản hồi được tạo ra tốt hơn, rẻ hơn, và nhanh hơn.

OpenAI chưa đưa ra xác nhận về việc hiện nay họ có dùng MOE hay không, tuy nhiên công ty này đã từng công bố một nghiên cứu vào năm 2022 do chủ tịch OpenAI Greg Brockman đồng tác giả, trong đó đề cập đến MOE.

Sharon Zhou, Giám đốc điều hành của Lamini, một công ty khởi nghiệp giúp các nhà phát triển xây dựng các mô hình ngôn ngữ lớn tùy chỉnh, phỏng đoán sự suy giảm hiệu suất đáng lo ngại của GPT-4 trong những tuần gần đây có thể liên quan đến việc đào tạo này và OpenAI mới tung ra đội tàu GPT-4 chuyên gia nhỏ hơn.

"Khi người dùng thử nghiệm nó, họ sẽ hỏi rất nhiều câu hỏi khác nhau. Chúng sẽ không hoạt động tốt ngay, nhưng chúng đang thu thập dữ liệu từ chúng ta và sẽ học hỏi, cải thiện", Zhou nói.


Tham khảo: