Cuối năm 2018, hệ thống gỡ băng cuộc họp tự động tại Văn phòng Trung ương Đảng đã được triển khai thành công và được mở rộng tới các Văn phòng Thành ủy, Tỉnh ủy tại 63 tỉnh thành Việt Nam như Ninh Bình, Quảng Ninh, Sóc Trăng, Hồ Chí Minh, v.v..

Anh Hoàng Minh Thành - Giám đốc điều hành Công ty VAIS tại Sự kiện Techfest Hải Phòng 2019.
Anh Hoàng Minh Thành - Giám đốc điều hành Công ty VAIS tại Sự kiện Techfest Hải Phòng 2019.

Giải pháp công nghệ trong xử lý bài toán hóc búa này là của một startup có tên Công ty TNHH Hệ thống trí thông minh nhân tạo Việt Nam (Vietnam AI System - Viết tắt là VAIS) do Hoàng Minh Thành và Đỗ Quốc Trường cùng các cộng sự sáng lập.

VAIS là công ty công nghệ tiên phong trong lĩnh vực nhận dạng và xử lý tiếng nói Tiếng Việt với giải pháp gỡ băng cuộc họp tự động, chuyển âm thanh thành văn bản (speech-to-text) một cách nhanh chóng, dễ dàng với độ chính xác cao lên tới 95%. Cùng với sự giúp đỡ của PGS.TS Lương Chi Mai và đội ngũ kỹ sư kinh nghiệm và tràn đầy nhiệt huyết với mục tiêu khẳng định công nghệ của người Việt Nam, VAIS đã song hành trong các chiến lược dài hạn, nghiên cứu học thuật gắn liền với triển khai ứng dụng thực tiễn phục vụ cuộc sống.

Giữa tháng 6 năm 2019, VAIS là đơn vị được Quốc hội tin tưởng triển khai thử nghiệm hệ thống chuyển giọng nói thành văn bản tự động tại kỳ họp thứ 7, Quốc hội khóa XIV. Đây là kỳ họp đầu tiên áp dụng trí tuệ nhân tạo khi VAIS thử nghiệm phần mềm nhận diện giọng nói, cho phép tiếng nói chuyển đổi thành chữ viết hiển thị trên màn hình của chủ tọa, giúp việc điều hành được chính xác hơn. Ngay sau kỳ họp, VAIS vinh dự nhận được thư khen của Tổng thư ký Quốc hội Nguyễn Hạnh Phúc cùng với lời nhận xét tích cực: “Việc bóc băng của các phiên họp rất nhanh, buổi sáng họp xong đến buổi trưa là có toàn bộ khối lượng cả phiên thảo luận buổi sáng”.

Không chỉ tự động ghi chép biên bản kỳ họp, phần mềm còn có khả năng ứng dụng trong nhiều ngành nghề khác nhau như tổng đài thông minh, chatbot, hệ thống phiên dịch tự động... Ứng dụng nhận diện được tiếng nói của cả ba miền Bắc, Trung, Nam để chuyển thành văn bản với độ chính xác lần lượt của các miền là 99% (miền Bắc), 85-90% (miền Trung) và 90% (miền Nam). Để thực hiện nhận diện giọng nói các vùng, VAIS đã phải tham khảo từ nhiều nguồn tài liệu kết hợp với thực nghiệm để tìm ra được sự khác biệt cũng như tìm ra được bộ phát âm chuẩn cho giọng nói ba miền.

Một điều đặc biệt nữa là tiếng nói được xuất ra thành văn bản dạng chữ (text) đối với tên địa danh, tên người, ngày, tháng.... được chuẩn hóa dưới dạng viết hoa. Anh Hoàng Minh Thành cho biết: “Văn bản sau khi được xuất ra hoàn toàn là chữ thông thường. Nhóm đã thu thập dữ liệu và phát triển thuật toán để có thể viết hoa tên riêng. Một điểm khá hay nữa là những tên không phải thuần Việt như Viettel, Vingroup, Vinamilk,... là các tên ghép, mượn từ nhiều thứ tiếng nhưng lại được viết theo kiểu tiếng Việt cũng được phần mềm giải quyết gọn gàng. Các từ được xuất ra đều có đầy đủ dấu câu, tính bảo mật rất cao và nhận diện được giọng nói ở môi trường có âm thanh nhiễu hay tiếng ồn với khoảng cách tối đa 6m”.

Gặp anh Hoàng Minh Thành - Giám đốc điều hành của VAIS tại Sự kiện Techfest Hải Phòng 2019 vào trung tuần tháng 9/2019, anh chia sẻ: “Lúc bắt đầu ý tưởng và triển khai dự án, mình cũng khá lo lắng vì “phong ba bão táp không bằng ngữ pháp Việt Nam” nhưng sự động viên, chia sẻ và hỗ trợ của các bạn cộng sự đã giúp mình có thêm sự tin tưởng dự án sẽ thành công. Hơn nữa, cũng chính do “phong ba bão táp” nên không có nhiều đơn vị (ngay cả trên thế giới) tiến vào lĩnh vực này, đó cũng là thị trường rộng lớn để VAIS có thể trở thành đơn vị hàng đầu. Một thống kê gần đây cho thấy, thị trường trong lĩnh vực nhận diện giọng nói có thể lên đến 300 triệu USD trong 5 năm tới. Riêng với Việt Nam, việc triển khai có thể áp dụng tới 63 tỉnh thành trên cả nước”.

Giống như nhiều startup khác, VAIS cũng gặp không ít khó khăn trên bước đường khởi nghiệp. Ngoài vốn, nhân sự thì công nghệ cũng khiến nhóm nghiên cứu mất nhiều thời gian để tạo dựng như anh Đỗ Quốc Trường - Giám đốc công nghệ chia sẻ: “Chúng tôi gặp một số khó khăn trong công nghệ, đó là: Thứ nhất, do ở Việt Nam chia ra 3 vùng miền với phương ngữ khác nhau, cách phát âm khác nhau nên phải dành nhiều nguồn lực để “thu” được tín hiệu tiếng nói từ các miền”; Thứ hai, việc đưa vào chuẩn hóa câu (thêm dấu câu) là điều rất quan trọng, tương tự khi viết. Tuy nhiên ở giọng nói, việc ngắt ý lại không rõ ràng (đôi khi chỉ là nghỉ để suy nghĩ và sẽ nói tiếp vấn đề gì chứ không phải ngắt câu) nên chúng tôi phải sử dụng một loạt công nghệ để xử lý; Thứ ba, chúng tôi đã phải nghiên cứu rất lâu để cho ra giao diện dễ dàng sử dụng bởi khi đưa sản phẩm đến người tiêu dùng phải dễ sử dụng nhất, không thể là một sản phẩm khoa học mang tính hàn lâm.

VAIS hiện có kho từ vựng lên đến gần 7.000 từ, gần bằng toàn bộ vốn từ tiếng Việt thường sử dụng và độ chính xác của VAIS được đánh giá khoảng 93,5%. Chỉ sau 6 tháng xuất hiện, VAIS đã nhận được nhiều giải thưởng lớn:

Đầu năm 2018, VAIS giành giải nhất về nhận dạng tiếng nói trong cuộc thi VLSP 2018 (Vietnamese Language and Speech Processing) đánh dấu mốc về sự xuất hiện của một tên tuổi mới tại Việt Nam về lĩnh vực trí tuệ nhân tạo nói chung và xử lý giọng nói nói riêng ở cả khía cạnh nghiên cứu và học thuật. Cũng trong năm 2018, VAIS còn đạt được những thành tựu đáng ghi nhận khác như: gian hàng trình diễn ấn tượng nhất tại AI4life và chính thức được Bộ Khoa học và Công nghệ tin tưởng, lựa chọn là một trong các doanh nghiệp đóng góp giải pháp công nghệ tiêu biểu cho đề án “Phát triển Hệ tri thức Việt số hóa” do Bộ Khoa học và Công nghệ chủ trì và Phó Thủ tướng Vũ Đức Đam làm Trưởng Ban chỉ đạo. Năm 2019, VAIS cũng được Hội Truyền thông Số Việt Nam (VDCA) trao giải A hạng mục sản phẩm dịch vụ, giải pháp công nghệ số trong lễ trao giải Chuyển đổi Số Việt Nam - Vietnam Digital Awards 2019.

Mặc dù đã được xã hội ghi nhận nhưng đối với thị trường, đây vẫn là mô hình mới và bài toán mà VAIS cần giải quyết vẫn chính là làm cách nào đưa sản phẩm tiếp cận được khách hàng mục tiêu bởi theo Hoàng Minh Thành “Nếu nhìn rộng ra thì tất cả các cơ quan chính quyền, doanh nghiệp hay cả học sinh, sinh viên đều có thể ứng dụng công nghệ này nhưng hiện nay, việc tiếp cận của các doanh nghiệp hay người dùng phổ thông vẫn khá dè dặt. Ví dụ khách hàng kỳ vọng chính xác 99% nhưng công nghệ tại thời điểm này chỉ đạt 95% nên nếu mong muốn như kỳ vọng thì cần phải nghiên cứu sâu thêm trong tương lai”.

Được hỏi về những kế hoạch trong thời gian tới, anh Đỗ Quốc Trường, đại diện cho VAIS chia sẻ: “Hiện chúng tôi đang hướng đến ba mục tiêu ngắn hạn, đó là: (1) Tập trung nâng cao độ chính xác chuyển hóa ngôn ngữ các miền lên mức tối đa; (2) Tập trung cho các cơ quan, chính quyền TW trước bởi khi đã thành công ở cấp TW thì việc triển khai ra địa phương sẽ dễ dàng và (3) Đưa ứng dụng tích hợp vào các sản phẩm cá nhân thông minh như smart phone, Ipad...”

Bền bỉ và luôn sẵn sàng trước thử thách là một trong những yếu tố cần thiết của startup khi chấp nhận lựa chọn con đường này. Thành công không chỉ đến trong ngày một, ngày hai và thành công cũng không đến quá dễ dàng... Đứng dậy sau vấp ngã, không đầu hàng trước khó khăn, đó là cách mà các bạn trẻ của VAIS cũng như nhiều bạn trẻ khác đã và đang khởi nghiệp lựa chọn.