Trang chủ Khoa học

Khoa học

Đi tìm mô hình ngôn ngữ lớn cho tiếng Việt

13/01/2024 14:44

Việt Nam không phải là nước đầu tiên muốn tạo ra một mô hình ngôn ngữ lớn (LLM) của riêng mình sau sự bùng nổ của ChatGPT. Tuy nhiên, tạo một LLM về ngôn ngữ bản địa là điều không dễ dàng.

VinAI ra mắt PhởGPT vào tháng 12/2023. Ảnh: NK

Sự xuất hiện của những mô hình đầu tiên

Tính đến cuối năm 2023, đã có một loạt mô hình ngôn ngữ tiếng Việt được giới thiệu - từ các sản phẩm của những công ty lớn như PhởGPT (VinAI), ViGPT (VinBigdata) đến các sản phẩm của các startup/nhóm nghiên cứu độc lập và trường đại học như Vietcuna (VILM), VinaLLaMA (VILM), URA-LlaMa (Đại học Bách khoa TP.HCM và Đại học Stanford); vietnamese-llama2-4b-40GB (Đại học Bách khoa Hà Nội) v.v

Chúng ra đời sau sự bùng nổ toàn cầu của ChatGPT, một sản phẩm thương mại dựa trên mô hình ngôn ngữ lớn của OpenAI (Mỹ) với khả năng hiểu ngôn ngữ và trò chuyện về nhiều chủ đề khác nhau. Hiện ChatGPT đang thu hút hơn 14 tỷ lượt sử dụng mỗi năm, nghĩa là trung bình mỗi người dân trên thế giới sẽ có ít nhất một lượt sử dụng ChatGPT.

Việt Nam không phải là nước đầu tiên muốn tạo ra LLM của riêng mình sau sự bùng nổ của ChatGPT. Trung Quốc, Hàn Quốc, Ấn Độ, Nhật Bản, Ý, Pháp, Indonesia, Ả Rập và hàng chục quốc gia khác đều có ý tưởng tương tự khi chứng kiến tiềm năng to lớn của các chatbot AI trong cuộc sống và kinh doanh.

Tuy nhiên, tạo một LLM về ngôn ngữ bản địa là điều không dễ dàng. Các chuyên gia nói rằng mỗi ngôn ngữ có một sắc thái riêng, vì vậy việc tạo ra một sản phẩm giống như ChatGPT là một thách thức đầy tham vọng. Có ba điều quan trọng để xây nên một mô hình LLM, đó là quyền truy cập vào dữ liệu bằng ngôn ngữ bản địa để bao quát một loạt chủ đề, sức mạnh tính toán, và đào tạo liên tục các bộ dữ liệu cập nhật.

Cả ba điều kiện trên đều là rào cản khi xây dựng LLM của tiếng Việt. Trên thực tế, tiếng Việt là ngôn ngữ ít phổ biến (low-resource language). Khi nói đến dữ liệu, tiếng Việt không như tiếng Anh có thể tạo dữ liệu dễ dàng vì có sẵn một hệ sinh thái hỗ trợ công nghệ tuyệt vời.

Dữ liệu bằng tiếng Anh không chỉ phổ biến trên Internet hoặc trong các kho lưu trữ, mà còn được số hóa với những công cụ tiêu chuẩn giúp gõ và kiểm tra lỗi, và có những công ty giúp số hóa văn bản và xây dựng dữ liệu ngoại tuyến.

Ngôn ngữ tiếng Việt chưa làm được điều đó, mặc dù thời gian gần đây đã có những nỗ lực của chúng phủ và doanh nghiệp để số hóa tất cả hoạt động trong nền kinh tế-xã hội và tạo ra những công cụ lấy dữ liệu tiếng Việt, ví dụ như các phần mềm chuyển hình ảnh thành chữ viết, chuyển văn bản thành giọng nói, trích xuất từ khóa, tự động dịch, so sánh văn bản giống nhau.v.v

Thực tế, ChatGPT đã mất gần sáu năm để có được vị trí như ngày nay, mặc dù dữ liệu tiếng Anh vô cùng dồi dào. Ngay cả khi số lượng người nói một ngôn ngữ rất lớn thì lượng văn bản trên Internet cũng có thể rất nhỏ. Điều này đúng với tiếng Việt, ngôn ngữ có gần 100 triệu người sử dụng nhưng số lượng văn bản trên Internet lại vô cùng khiêm tốn (dưới 1%).

Điều tương tự cũng đúng với tiếng Hindi (Ấn Độ) và tiếng Quan Thoại (Trung Quốc), mỗi tiếng có hàng trăm triệu người nói. Mặc dù Chính phủ Trung Quốc đã dành rất nhiều thời gian và tiền bạc để khắc phục vấn đề này, nhưng vẫn không nhất thiết phải có đủ văn bản tiếng Quan Thoại để cung cấp cho một thuật toán AI đói dữ liệu. Tuy vậy, Trung Quốc vẫn là một trong số ít quốc gia đạt được thành tựu xây dựng LLM cho tiếng bản địa khi phát triển được ít nhất 79 mô hình ngôn ngữ lớn, theo một báo cáo của Viện Thông tin Khoa học và Kỹ thuật Trung Quốc (ISTIC) vào tháng năm năm ngoái.

Dù chưa chính thức thống kê, nhưng Việt Nam cũng có một số lượng khiêm tốn các mô hình LLM tiềm năng. Các nhóm phát triển công nghệ đã cố gắng vượt qua rào cản dữ liệu bằng nhiều cách. VinAI đào tạo trước PhởGPT với 7,5 tỷ tham số, dựa trên kho văn bản tiếng việt 41GB, trong đó có 1GB văn bản Wikipedia và một biến thể 40GB được loại bỏ trùng lặp của tập dữ liệu tin tức. VinBigdata cũng huấn luyện mô hình ViGPT 1,6 tỷ tham số của mình với khoảng 600GB dữ liệu với kiến trúc khác hẳn, sử dụng dữ liệu thuộc các lĩnh vực đặc thù như pháp luật, lịch sử, văn hóa, danh nhân, danh lam thắng cảnh, đặc trưng vùng miền. VinaLLaMA 7 tỷ tham số của nhóm VILM tuyên bố đào tạo trên 1 triệu mẫu tổng hợp chất lượng cao, bao gồm dữ liệu công khai từ 250,000 cuốn sách, hai trang tin điện tử (VnExpress, Báo mới) và các dữ liệu nội bộ do các mô hình AI tin cậy khác sinh ra.

Năng lực tính toán cũng là một điểm nhấn. Các nhà nghiên cứu Việt Nam đang tìm cách tăng hiệu suất các mô hình và giảm tài nguyên tiêu tốn để cạnh tranh với các mô hình của ChatGPT. Họ tạo ra những công thức đào tạo và mở rộng quy mô mới để tăng hiệu suất xử lý tiếng Việt mà không lãng phí tài nguyên tính toán GPU đắt tiền.

Trong phiên ra mắt đầu tháng 12, TS. Bùi Hải Hưng của VinAI trình diễn rằng không như ChatGPT cần truy cập Internet để trả lời câu hỏi, PhởGPT có thể triển khai trên điện thoại di động mà không phải kết nối mạng. Lấy ngay PhởGPT làm đòn bẩy, chỉ sau một tháng, VinaLLaMA tuyên bố nhờ cách sắp xếp vượt trội mà mô hình của họ có hiệu suất cao hơn cả PhởGPT trong khi chỉ yêu cầu 1/3 tài nguyên tính toán. Các kỹ sư Việt đang mày mò nhiều cách khác nhau để chạy đua tạo ra những mô hình tiếng Việt ưu thế nhất.

Tất cả những nỗ lực như vậy giúp Việt Nam có được những phiên bản LLM tiếng Việt ít nhiều so sánh được với “tượng đài” ChatGPT. Một số còn tham vọng tuyên bố chúng ta đã có thể “nói lời tạm biệt với ChatGPT”, vì mô hình của họ đang có hiệu suất tương đương với ChatGPT-3.5-Turbo (tức ChatGPT phiên bản miễn phí dành cho cộng đồng) trên nhiều tác vụ.

Dĩ nhiên, để duy trì hiệu suất, các mô hình LLM tiếng Việt luôn phải được cải tiến. Trong hai tuần thử nghiệm cộng đồng vừa qua, ViGPT của VinBigdata, mô hình LLM duy nhất hiện nay có giao diện cho người dùng cuối (các mô hình khác đang cung cấp sản phẩm theo dạng mã nguồn hoặc kết nối qua cổng APIs), đã nhận được một loạt phản hồi công khai “mổ xẻ” về năng lực và tính chính xác của chatbot. Trong một thế giới mà người dùng đã quen với sức mạnh kỳ diệu của ChatGPT, các chatbot tương tự của Việt Nam cũng sẽ bị soi mói theo một tiêu chuẩn cao và được kỳ vọng sớm đuổi kịp những công nghệ hàng đầu thế giới.

Kết quả đánh giá một số mô hình ngôn ngữ lớn theo bộ tiêu chuẩn đánh giá năng lực tiếng Việt (VMLU). Nguồn: VinBigdata

Các mô hình LLM chỉ cung cấp mã nguồn mở cũng đang được cộng đồng chuyên gia kỹ thuật thử nghiệm và đánh giá. Dù không phủ nhận những nỗ lực của các đơn vị công nghệ trong nước, nhưng các kỹ sư độc lập tin rằng phải mất vài năm nữa thì các mô hình tiếng Việt mới có thể mượt mà được. Theo họ, các mô hình cần chú trọng đến chuyện làm giàu dữ liệu tiếng Việt để đảm bảo quá trình đào tạo quay vòng.

Có hai cách để một ngôn ngữ như tiếng Việt có thêm dữ liệu là văn bản hóa thêm nội dung và tri thức tiếng Việt, hoặc đồng bộ hóa tri thức thế giới sang tiếng Việt. Tại thời điểm hiện tại, các nhóm kỹ sư đang ưu tiên công việc số hai, nhưng trong dài hạn họ cần kế hoạch phát triển dữ liệu riêng của mình theo cách tiếp thứ nhất.

Một nền tảng công nghệ LLM tiếng Việt

LLM tiếng Việt đáp ứng một trong những nhu cầu quan trọng của Việt Nam, đó là chủ quyền kiểm soát. Không ai muốn phụ thuộc vào sự giúp đỡ từ bên ngoài cho một công nghệ quan trọng như AI.

Mặc dù hiện tại, ChatGPT rất phổ biến và nó có thể xử lý được tiếng Việt một cách khả dĩ, nhưng không ai biết được điều gì sẽ xảy ra trong tương lai. Các nhà công nghệ đã tính đến những kịch bản như API của ChatGPT tạm thời tắt trong vài giờ hoặc bị giới hạn tần suất; ChatGPT bị ngừng phục vụ vĩnh viễn, hoặc bị cấm theo luật pháp của chính phủ hoặc các biện pháp bảo vệ dữ liệu và rào cản khác.

Rõ ràng, một mô hình ngôn ngữ nội bộ sẽ giúp chính phủ và các doanh nghiệp Việt Nam vận hành thoải mái trong cơ sở hạ tầng của riêng mình, duy trì kiểm soát hoàn toàn việc sử dụng và tinh chỉnh mô hình cho mục đích riêng của mình, đặc biệt các lĩnh vực quan trọng như ngân hàng, y tế, giáo dục. Nó cũng giúp ích cho tham vọng trở thành một trung tâm hàng đầu thế giới về AI của Việt Nam.

Một điểm khác về bối cảnh thị trường, đó là các mô hình LLM của người Việt có thể rẻ hơn nhiều so với các mô hình nước ngoài. Mindmaid, một doanh nghiệp khởi nghiệp có trụ sở tại Hà Nội chuyên tích hợp các LLM để tạo ra nền tảng trợ lý ảo cho các cá nhân, doanh nghiệp và tổ chức, nói rằng chi phí cho các mô hình nguồn mở tiếng Việt hiện có có thể giảm đi 4-5 lần so với chi phí sử dụng API của ChatGPT. Nhiều mô hình do người Việt tạo ra đã có thể tích hợp với nền tảng của họ.

“Nói nôm na, khi khai thác được các LLM cỡ nhỏ - điển hình như PhởGPT 7B hay VinaLLaMA 7B – thay cho mô hình cỡ lớn của ChatGPT thì giống như mình tự chế được xăng mà không phải mua xăng từ cây xăng với giá thành cao”, Lộc Đặng, đồng sáng lập Mindmaid, chia sẻ trên trang cá nhân.

Bộ Thông tin và Truyền thông gần đây đã đưa ra kế hoạch đến năm 2025 Việt Nam có ít nhất một nền tảng công nghệ LLM tiếng Việt phục vụ cho mọi người phát triển các ứng dụng mới. Các tập đoàn và startup trong nước đang nhìn thấy cơ hội thị trường và bắt đầu cuộc chạy đua hối hả. Đến cuối cùng, ai sẽ là người thắng cuộc để hưởng phần lớn thị phần, chỉ thời gian mới chứng minh được.

Bài đăng số 1274 (số 2/2024) KH&PT

Ngô Hà

TIN TIÊU ĐIỂM

CHUYÊN MỤC