Một số nhà nghiên cứu Nhật Bản cho rằng các hệ thống AI được đào tạo bằng ngoại ngữ không thể nắm bắt được sự phức tạp của ngôn ngữ và văn hóa Nhật Bản.
ChatGPT, chatbot trí tuệ nhân tạo do công ty OpenAI của Mỹ sản xuất, đã trở thành hiện tượng gây sốt trên toàn thế giới sau khi ra mắt gần một năm trước. Chính phủ Nhật Bản và các công ty công nghệ lớn của nước này như NEC, Fujitsu và SoftBank đang đầu tư hàng trăm triệu USD để tạo ra các AI dựa trên cùng công nghệ với ChatGPT, mô hình ngôn ngữ lớn (LLM), nhưng sử dụng tiếng Nhật.
“Các LLM hiện nay, chẳng hạn như GPT, vượt trội về tiếng Anh nhưng thường kém tiếng Nhật do sự khác biệt trong hệ thống bảng chữ cái, lượng dữ liệu [các ngôn ngữ ngoài tiếng Anh] hạn chế và các yếu tố khác”, Keisuke Sakaguchi, nhà nghiên cứu xử lý ngôn ngữ tự nhiên tại Đại học Tohoku (Nhật Bản), cho biết.
LLM thường sử dụng lượng dữ liệu khổng lồ từ các nguồn công cộng có sẵn để tìm hiểu các mẫu hình có trong ngôn ngữ. Từ dữ liệu đào tạo này, chúng dự đoán từ tiếp theo dựa trên các từ trước đó trong một đoạn văn bản. Phần lớn văn bản mà ChatGPT được đào tạo đều là văn bản tiếng Anh.
Các chuyên gia Nhật Bản lo ngại rằng các hệ thống AI được đào tạo trên bộ dữ liệu bằng các ngôn ngữ khác không thể nắm bắt được sự phức tạp của ngôn ngữ và văn hóa Nhật Bản. Cấu trúc câu trong tiếng Nhật hoàn toàn khác với tiếng Anh. Với ChatGPT, chatbot dịch truy vấn của người dùng từ tiếng Nhật sang tiếng Anh, tìm câu trả lời trong tiếng Anh, dịch lại về tiếng Nhật và trả về cho người dùng.
Siêu máy tính Fugaku của Nhật Bản đã được đưa vào phát triển phiên bản ChatGPT tiếng Nhật.
Trong khi tiếng Anh chỉ có 26 chữ cái thì chữ viết tiếng Nhật bao gồm hai bộ ký tự cơ bản, mỗi bộ 48 ký tự, cộng với 2.136 ký tự tiếng Trung hay chữ kanji thường dùng. Hầu hết các chữ kanji có từ hai cách phát âm trở lên. Ngoài ra, họ còn có khoảng 50.000 chữ kanji hiếm dùng. ChatGPT với thiết kế hiện tại không đáp ứng được sự phức tạp này. Khi giao tiếp bằng tiếng Nhật, ChatGPT “đôi khi tạo ra những ký tự cực kỳ hiếm mà hầu hết mọi người chưa từng thấy trước đây và tạo ra những từ kỳ lạ chưa ai biết”, Sakaguchi nói.
Để LLM trở nên hữu ích và xa hơn là có khả năng thương mại hóa, nó cần phản ánh chính xác văn hóa và ngôn ngữ bản địa. Ví dụ, nếu ChatGPT được yêu cầu viết e-mail xin việc bằng tiếng Nhật, nó sẽ thiếu các cách diễn đạt lịch sự tiêu chuẩn và e-mail trông giống như một bản dịch từ tiếng Anh.
Một trong những dự án đáng chú ý nhất của Nhật Bản hiện sử dụng siêu máy tính Fugaku, một trong những siêu máy tính nhanh nhất thế giới, để đào tạo LLM bằng đầu vào tiếng Nhật. Dự án này do Viện Công nghệ Tokyo, Đại học Tohoku, Tập đoàn Fujitsu và Trung tâm nghiên cứu RIKEN thực hiện. Sản phẩm LLM của họ dự kiến sẽ được phát hành vào năm 2024. LLM này cũng sẽ được phát hành dưới dạng nguồn mở, không giống như GPT-4 của OpenAI và các mô hình độc quyền khác. Theo Sakaguchi, người tham gia dự án, nhóm nghiên cứu hy vọng sẽ tạo ra mô hình với ít nhất 30 tỷ tham số, hay số giá trị ảnh hưởng đến kết quả đầu ra. Số tham số thường được dùng làm thước đo cho quy mô của LLM. Để so sánh, GPT-3 có khoảng 175 tỷ tham số và số tham số của GPT-4 được OpenAI giữ kín.
Tuy nhiên, LLM được phát triển bằng Fugaku chưa phải là mô hình lớn nhất của Nhật. Bộ Giáo dục, Văn hóa, Thể thao, Khoa học và Công nghệ Nhật Bản đang tài trợ cho dự án phát triển một AI Nhật Bản dành cho khoa học, đào tạo bằng các nghiên cứu đã được công bố. Mô hình này dự kiến sẽ có kích thước 100 tỷ tham số và sẽ được mở rộng dần. LLM này sẽ tiêu tốn ít nhất 30 tỷ Yen hay 204 triệu USD để phát triển và dự kiến phát hành vào năm 2031.
Một số công ty Nhật Bản khác đã thương mại hóa hoặc có kế hoạch thương mại hóa công nghệ LLM của riêng họ. Nhà sản xuất siêu máy tính NEC đã bắt đầu sử dụng AI dựa trên ngôn ngữ tiếng Nhật vào tháng Năm và tuyên bố rằng AI giúp giảm 50% thời gian cần thiết để tạo báo cáo nội bộ và 80% thời gian tạo mã nguồn phần mềm nội bộ. Sang tháng Bảy, công ty này đã bắt đầu cung cấp các dịch vụ AI có thể tuỳ chỉnh cho khách hàng.
Masafumi Oyamada, nhà nghiên cứu cấp cao tại Phòng thí nghiệm khoa học dữ liệu NEC, nói rằng AI do NEC phát triển có thể được sử dụng “trong nhiều ngành công nghiệp, chẳng hạn như tài chính, vận tải và hậu cần, phân phối và sản xuất”.
Trong khi đó, SoftBank đang đầu tư khoảng 20 tỷ Yen vào AI được đào tạo trên văn bản tiếng Nhật và có kế hoạch ra mắt LLM của riêng mình vào năm tới. Softbank, hiện hợp tác với Microsoft, cho biết họ đặt mục tiêu giúp các công ty số hóa hoạt động kinh doanh và tăng năng suất. SoftBank cũng kỳ vọng LLM của họ sẽ được các trường đại học và tổ chức nghiên cứu sử dụng.
Trong khi đó, các nhà nghiên cứu Nhật Bản hy vọng một chatbot AI chính xác, hiệu quả và được sản xuất tại Nhật Bản có thể giúp thúc đẩy khoa học và thu hẹp khoảng cách về AI giữa Nhật Bản và phần còn lại của thế giới.
Shotaro Kinoshita, nhà nghiên cứu công nghệ y tế tại Trường Y thuộc Đại học Keio, cho biết. một phiên bản ChatGPT tiếng Nhật có thể giúp những người muốn học tiếng Nhật hoặc tiến hành nghiên cứu về Nhật Bản, từ đó thúc đẩy các hợp tác nghiên cứu.
Nguồn: