Các công ty trí tuệ nhân tạo hàng đầu đang thử nghiệm cách tiếp cận mới nhằm đáp ứng nhu cầu dữ liệu vô cùng lớn.
Đằng sau mỗi phản hồi thông minh từ chatbot là vô vàn dữ liệu – hàng nghìn tỷ từ, trong một số trường hợp được lấy từ các bài báo, cuốn sách và bình luận trên mạng để dạy cho hệ thống AI hiểu được câu hỏi của người dùng. Một điều ai cũng biết trong ngành này là sẽ cần nhiều thông tin hơn nữa để tạo ra thế hệ sản phẩm AI mới.
Tuy nhiên, có một vấn đề lớn với kế hoạch đó: chỉ có bấy nhiêu dữ liệu chất lượng cao trên internet. Nói đơn giản, thường thì các công ty AI hoặc phải trả hàng triệu USD cho các nhà xuất bản để được cấp phép sử dụng nội dung, hoặc là trích xuất dữ liệu trên các trang web để rồi đối mặt với cuộc chiến bản quyền. Các tập đoàn trí tuệ nhân tạo hàng đầu đang tìm cách tiếp cận khác và nó gây chia rẽ cộng đồng AI: sử dụng dữ liệu tổng hợp, hay về bản chất là dữ liệu giả.
Nó sẽ diễn ra thế này: Các công ty công nghệ có thể dùng chính hệ thống AI của mình để tạo ra văn bản và phương tiện truyền thông khác. Sau đó, dữ liệu nhân tạo có thể được dùng để đào tạo những phiên bản tương lai của cùng hệ thống, như Giám đốc điều hành Anthropic Dario Amodei gọi nó là “động cơ tạo dữ liệu vô hạn” tiềm năng. Bằng cách này, công ty AI có thể tránh gây ra lo ngại về pháp lý, đạo đức và quyền riêng tư.
Ý tưởng dùng dữ liệu tổng hợp trong thuật toán không hề mới – kỹ thuật này đã được dùng trong hàng thập niên cho mọi thứ từ hủy ẩn danh thông tin cá nhân cho tới mô phỏng các điều kiện đường sá cho công nghệ tự lái. Song sự trỗi dậy của AI tạo sinh khiến nó dễ dàng tạo ra dữ liệu tổng hợp chất lượng tốt hơn trên quy mô lớn.
Công ty Anthropic cho biết họ sử dụng dữ liệu tổng hợp để xây dựng mô hình mới nhất hỗ trợ chatbot Claude. Meta và Google đã dùng nó để phát triển những mô hình nguồn mở gần đây. Google DeepMind cho biết dựa vào phương pháp này để đào tạo mô hình có thể giải được những bài toán hình học trình độ thi Olympic. Và nhiều người đồn đoán không biết OpenAI có đang sử dụng dữ liệu như vậy để đào tạo Sora hay không, nó có khả năng tạo ra video từ văn bản.
Tại Microsoft, nhóm nghiên cứu AI tạo sinh chuyển sang dùng dữ liệu tổng hợp cho một dự án gần đây. Họ muốn xây dựng một mô hình AI nhỏ hơn, ít tốn tài nguyên hơn mà vẫn có ngôn ngữ hiệu quả và khả năng suy luận. Để làm được vậy, họ cố gắng bắt chước cách trẻ em học ngôn ngữ qua việc đọc truyện.
Thay vì cung cấp cho mô hình AI lượng lớn sách thiếu nhi, nhóm soạn ra danh sách 3.000 từ mà một đứa trẻ bốn tuổi có thể hiểu. Sau đó, họ yêu cầu mô hình AI tạo một câu chuyện thiếu nhi, sử dụng một danh từ, một động từ và một tính từ trong danh sách trên. Các nhà nghiên cứu lặp lại từ khóa đó hàng triệu lần trong vài ngày, tạo ra hàng triệu truyện ngắn mà cuối cùng giúp phát triển mô hình ngôn ngữ khác có năng lực hơn. Microsoft đã tạo ra dòng mô hình ngôn ngữ “nhỏ” mới tên gọi Phi-3, có nguồn mở và khả dụng với công chúng.
Với dữ liệu tổng hợp, các công ty có thể hướng dẫn hệ thống AI tốt hơn qua quá trình học nhờ đưa thêm lời giải thích vào dữ liệu, trong khi nếu không có thì máy móc sẽ nhầm lẫn khi xử lý.
Song, một số chuyên gia AI lo ngại về nguy cơ của những kỹ thuật này. Một nhóm nhà nghiên cứu ở Oxford, Cambridge, và các đại học lớn khác đã đăng một bài báo vào năm ngoái, giải thích việc sử dụng dữ liệu tổng hợp mà ChatGPT tạo ra để xây dựng mô hình AI mới có thể dẫn tới “sụp đổ mô hình” như thế nào.
Trong thử nghiệm của họ, mô hình AI dựa trên đầu ra của ChatGPT bắt đầu cho thấy “khiếm khuyết không thể khắc phục”, và dường như mất bộ nhớ của thứ mà ban đầu nó được đào tạo. Trong một ví dụ, các nhà nghiên cứu chỉ thị cho mô hình AI ngôn ngữ lớn với từ khóa về kiến trúc nổi bật của Anh quốc. Sau khi các nhà nghiên cứu đào tạo lại mô hình với dữ liệu tổng hợp nhiều lần, mô hình bắt đầu tạo ra thông tin nhảm vô nghĩa về thỏ rừng tai to.
Các nhà nghiên cứu cũng lo ngại rằng dữ liệu tổng hợp có thể phóng đại những định kiến và tính độc hại trong bộ dữ liệu. Một số người ủng hộ dữ liệu tổng hợp cho rằng với những biện pháp thích hợp, đúng chỗ, các mô hình phát triển theo hướng này có thể chính xác ngang bằng hay tốt hơn những mô hình dựa trên dữ liệu thực.
“Dữ liệu tổng hợp có thể hữu ích nếu được tạo ra đúng cách”, Zakhar Shumaylov, nghiên cứu sinh tiến sĩ tại Đại học Cambridge, đồng tác giả bài báo về sự sụp đổ mô hình. “Tuy nhiên, không có câu trả lời rõ ràng nào về cách làm sao để thực hiện đúng; một số định kiến có thể rất khó nhận thấy với con người”.
Ngoài ra còn có cuộc tranh luận mang tính triết học hơn: nếu các mô hình ngôn ngữ lớn mắc kẹt trong vòng lặp đào tạo vô tận bằng nội dung của chính nó, thì cuối cùng có phải AI không còn là máy móc bắt chước trí thông minh của con người mà là thứ bắt chước ngôn ngữ của những máy khác chăng?
Percy Liang, giáo sư khoa học máy tính của Đại học Stanford, cho biết để tạo ra dữ liệu tổng hợp hữu ích, các công ty cần tác phẩm thực sự từ trí tuệ con người như sách, báo và mã. “Dữ liệu tổng hợp không phải dữ liệu thực sự, nó giống như là bạn nằm mơ mình trèo lên đỉnh Everest nhưng thực ra đâu phải thật”.
Các nhà tiên phong trong lĩnh vực dữ liệu tổng hợp và AI đồng ý rằng không thể loại bỏ con người được. Chúng ta vẫn cần con người tạo ra và tinh chỉnh bộ dữ liệu nhân tạo.