Trong lễ khai mạc Ngày Trí tuệ nhân tạo AI Day 2023 tại TPHCM, VinAI đã lần đầu giới thiệu đến công chúng một dự án đầy tham vọng có tên gọi “PhởGPT”.

Đây là dự án nghiên cứu mã nguồn mở về mô hình ngôn ngữ lớn cho riêng tiếng Việt. Với mục tiêu trở thành mô hình tương tự ChatGPT nhưng dành riêng cho người Việt, PhởGPT có khả năng hiểu và viết văn phong tiếng Việt tốt hơn so với các công nghệ về ngôn ngữ thế hệ trước. Mô hình cũng được huấn luyện từ đầu với tập dữ liệu tiếng Việt, không phụ thuộc vào bất cứ mô hình nào khác của thế giới, đảm bảo việc làm chủ công nghệ lõi tiên tiến cho Việt Nam.

PhởGPT sở hữu lượng dữ liệu lớn có 7,5 tỷ tham số, được xây dựng trên nền tảng giải mã Transformer. Mô hình này được huấn luyện từ đầu, sử dụng những kỹ thuật tiên tiến nhất hiện có như cơ chế tập trung chớp nhoáng (Flash Attention) và ngoại suy độ dài ngữ cảnh AliBi. Những kỹ thuật này không chỉ giúp mô hình hiểu sâu hơn về ngữ cảnh mà còn làm tăng khả năng đối thoại và tương tác tự nhiên của PhởGPT, giúp mô hình trở thành một công cụ đa nhiệm và linh hoạt, có khả năng đáp ứng đa dạng các nhu cầu ngôn ngữ của người sử dụng.

"Các thử nghiệm thực tế đã chứng minh rằng những mô hình tiếng Việt trước đây chưa đạt được hiệu suất tối ưu, gây ra những khó khăn trong việc ứng dụng chúng cho các mục đích thực tế và tiềm năng phát triển ứng dụng đa dạng dành cho ngôn ngữ tiếng Việt" - đại diện VinAI chia sẻ. "Chúng tôi thấy rằng sự thiếu sót này không chỉ đặt ra thách thức đối với việc tạo ra các ứng dụng tiếng Việt chất lượng cao mà còn ảnh hưởng đến sự phát triển của cộng đồng ngôn ngữ tự nhiên trong nước. Việc này thúc đẩy chúng tôi đặt ra mục tiêu: xây dựng một mô hình mới, mạnh mẽ hơn và có khả năng xử lý ngôn ngữ Việt với độ chính xác và hiệu suất cao."

Nói về sự khác biệt của PhởGPT so với ChatGPT, VinAI cho biết PhởGPT là một dự án mã nguồn mở (Open-source), còn ChatGPT của OpenAI là một phần mềm sở hữu riêng. Bằng cách sử dụng mô hình mã nguồn mở PhởGPT, người dùng có thể phát triển các ứng dụng tùy chỉnh, đặc biệt là những ứng dụng đòi hỏi sự bảo mật cao mà không phải phụ thuộc vào API từ các phần mềm sở hữu riêng. So sánh phiên bản PhởGPT-7B5-Instruct và ChatGPT mã nguồn đóng (GPT-3.5-turbo) và các mô hình mã nguồn mở khác cho thấy: PhởGPT đứng thứ hai chỉ sau ChatGPT trong hầu hết các mục đánh giá.

Ảnh: VinAI
Ảnh: VinAI

AI Day là sự kiện được đồng tổ chức thường niên bởi Công ty Nghiên cứu và Ứng dụng Trí tuệ nhân tạo VinAI (thuộc Tập đoàn Vingroup) và New Turning Institute, với sự đồng hành của Bộ Khoa học và Công nghệ Việt Nam và Trung tâm Đổi mới Sáng tạo Quốc gia NIC. Năm nay là năm thứ 5 liên tiếp AI Day diễn ra.

Diễn ra trong hai ngày 5 và 6/12 tại TPHCM, AI Day 2023 gồm 4 phiên thảo luận chính, có tầm ảnh hưởng lớn đến nhiều lĩnh vực gồm “Tương lai của mô hình ngôn ngữ lớn (LLMs)”; “Định hình lại tầm nhìn về tương lai trí tuệ nhân tạo”; “Tác động toàn cầu của trí tuệ nhân tạo tạo sinh GenAI” và “Tiềm năng của GenAI trong nền kinh tế Đông Nam Á”. Đặc biệt, AI tạo sinh - GenAI là chủ đề nóng, được quan tâm bởi tính thiết thực và công năng. Ngoài ra, người tham dự cũng được trải nghiệm các tính năng, sản phẩm công nghệ AI tại gian hàng của VinAI và các nhà tài trợ.

Sự kiện có sự tham dự của hơn 30 chuyên gia là các giáo sư, nhà khoa học hàng đầu trong lĩnh vực trí tuệ nhân tạo đến từ khắp nơi trên thế giới, cùng hơn 100 đại diện doanh nghiệp và 1.500 khách mời trong lĩnh vực công nghệ, sản xuất và chế tạo trong nước và quốc tế.