Mới đây, Meta AI thuộc Meta Platforms (hay trước đây là Facebook) đã tuyên bố cho phép các nhà nghiên cứu truy cập vào OPT-175B - hệ thống xử lý ngôn ngữ tự nhiên 175 tỷ tham số của mình - để tăng mức độ minh bạch và cởi mở trong việc phát triển các mô hình ngôn ngữ lớn.

Các mô hình ngôn ngữ lớn - tức các hệ thống xử lý ngôn ngữ tự nhiên (NLP) với hơn 100 tỷ tham số - đang mở ra những khả năng xử lý mới của AI -từ dịch thuật, làm toán, trả lời câu hỏi, hoàn thành câu, tóm tắt, suy luận thông thường,... cho đến những năng lực sâu hơn như đọc hiểu văn bản, trò truyện, sử dụng thành ngữ hay giải thích câu nói đùa...

Để so sánh, các mô hình xử lý ngôn ngữ tự nhiên lớn nhất thế giới hiện nay được biết tới là Wu Dao 2.0 (1.750 tỷ tham số), Megatron-Turing NLG (530 tỷ tham số), Gopher (280 tỷ tham số), GPT-3 (175 tỷ tham số),... Một số mô hình dự kiến sẽ công bố vào năm 2022 hoặc 2023 thậm chí có thể phá vỡ những kỷ lục trên.

Khi quy mô của mô hình tăng lên, hiệu suất được cải thiện giữa các tác vụ đồng thời sẽ mở ra khả năng xử lý mới cho AI. | Ảnh: Google AI
Khi quy mô của mô hình tăng lên, AI sẽ mở ra nhiều khả năng xử lý mới. | Ảnh: Google AI

Trong một số trường hợp, công chúng có thể tương tác với các mô hình này thông qua các giao diện lập trình ứng dụng (API) trả phí, nhưng quyền truy cập nghiên cứu đầy đủ vẫn bị giới hạn ở một số phòng thí nghiệm có nguồn lực cao.

Do quyền truy cập bị hạn chế, các nhà nghiên cứu bị giới hạn khả năng tìm hiểu cách thức các mô hình ngôn ngữ lớn này hoạt động, cản trở nỗ lực cải thiện sức mạnh của mô hình hoặc giảm thiểu những vấn đề đã biết như thiên kiến sai lệch hoặc độc hại.

Để phù hợp với cam kết về khoa học mở, Meta AI - với tiền thân là - mới đây đã tuyên bố chia sẻ Open Pretrained Transformer (OPT-175B), mô hình ngôn ngữ với 175 tỷ tham số được đào tạo dựa trên những tập dữ liệu công khai có sẵn.

Đây là lần đầu tiên một hệ thống ngôn ngữ có kích thước lớn như vậy được chia sẻ, bao gồm cả những mô hình đã được đào tạo trước và các bộ mã cần thiết để đào tạo và sử dụng chúng.

Nhằm duy trì tính toàn vẹn và ngăn chặn việc sử dụng sai mục đích, Meta AI đang mở những mô hình này dưới dạng cấp phép phi thương mại, tập trung vào những trường hợp sử dụng để nghiên cứu.

Bên cạnh mô hình lớn, Meta AI cũng phát hành các mô hình cơ sở ở quy mô nhỏ hơn - bao gồm các mô hình 125 triệu, 350 triệu, 1.3 tỷ, 2.7 tỷ, 6.7 tỷ, 13 tỷ và 30 tỷ tham số (mô hình 66 tỷ tham số sắp được đưa ra). Chúng đều được đào tạo trên cùng một bộ dữ liệu và sử dụng những cài đặt tương tự như OPT-175B, cho phép các nhóm nghiên cứu xem xét ảnh hưởng của quy mô tới hiệu quả mô hình.

Nhóm tác giả cho biết đã chú trọng hiệu quả năng lượng trong quá trình phát triển OPT-175B, do vậy mô hình được đào tạo thành công nhưng chỉ sử dụng 1/4 dấu chân carbon so với mô hình GPT-3, một trong những công cụ trí tuệ nhân tạo lớn nhất thế giới hiện nay của công ty OpenAI do Elon Musk đồng sáng lập.

Thông qua việc mở quyền tiếp cận vào hệ thống OPT-175B, các nhà nghiên cứu của Meta AI mong muốn bổ sung mức độ minh bạch và cởi mở chưa từng có vào việc phát triển các mô hình ngôn ngữ lớn.

Cộng đồng có thể truy cập mã nguồn mở và các mô hình đào tạo trước ở quy mô nhỏ tại đây, hoặc điền form yêu cầu truy cập vào hệ thống OPT-175B tại đây


Nguồn: