Việc chuyển những file âm thanh thành văn bản hay còn gọi là ‘gỡ băng’ tốn rất nhiều thời gian của các phóng viên, biên tập viên hay thư ký các cuộc họp của Chính phủ, Bộ, ngành… VAIS đã giúp giải quyết công việc này nhờ vào công cụ AI được “dạy” nhận dạng được cả các dấu, thanh điệu tiếng Việt một cách chính xác.

‘Làm gì đó cho tiếng Việt’

Lâu nay, khâu ‘gỡ băng’ (chuyển tiếng nói thành văn bản) nhanh, chính xác trong các cuộc họp của Chính phủ và các Bộ ngành luôn ngốn rất nhiều thời gian của đội ngũ thư ký, phóng viên. Thông thường, để gõ lại chính xác khoảng 1 giờ ghi âm, mỗi người sẽ cần khoảng 4-6 giờ gỡ băng tuỳ theo tốc độ, nội dung của người nói. Mỗi năm, cơ quan chính phủ, bộ ban ngành có hàng nghìn cuộc họp với chục hàng nghìn giờ audio. Với những cuộc họp quan trọng như chất vấn tại kỳ họp thứ 8 Quốc hội khóa XIV, ban thư ký cần tới hàng chục người gõ lại nội dung cuộc họp. Nếu họp buổi sáng thì đến chiều phải có văn bản tổng hợp nên các văn phòng đều rất cần công cụ hỗ trợ.

Các founder của VAIS giới thiệu về sản phẩm ‘gỡ băng’ tại Nhân tài Đất Việt 2019.Ảnh: Dân trí.
Các founder của VAIS giới thiệu về sản phẩm ‘gỡ băng’ tại Nhân tài Đất Việt 2019. Ảnh: Dân trí.

Trên thế giới, công nghệ nhận dạng giọng nói, nhất là nhận dạng tiếng Anh đã được nghiên cứu từ rất lâu với nhiều sản phẩm chuyển từ giọng nói sang văn bản điển hình như Google Assistant, Amazon Alexa, Apple Siri nên việc gỡ băng này đã đơn giản hóa rất nhiều. Nhưng 7 năm trước, Đỗ Quốc Trường, CEO của VAIS biết đây là một bài toán khó ở Việt Nam vì ở thời điểm ấy, nhiều đơn vị ở Việt Nam đã nghiên cứu công nghệ nhận dạng tiếng nói, chuyển tiếng nói thành văn bản nhưng lại chưa có một sản phẩm cụ thể nào ra đời.

Lúc đó, khi tới Nhật học Thạc sỹ và Tiến sĩ, Đỗ Quốc Trường thực hiện nghiên cứu về công nghệ sử dụng trí tuệ nhân tạo (AI) để dịch tiếng nói Anh - Nhật 2 chiều và tự hỏi “công nghệ trên thế giới đã phát triển như vậy tại sao không làm một sản phẩm tương tự với tiếng mẹ đẻ của mình?”.

‘Khi ấy tôi làm vì sở thích cá nhân, mong muốn tiếng Việt sẽ không ở lại phía sau trong thời buổi việc chuyển ngữ từ tiếng nói sang văn bản ngày càng phổ biến và nhìn chung công nghệ nhận dạng tiếng nói, dữ liệu tiếng nói để máy học đang rất phát triển này” – Đỗ Quốc Trường nói về lý do bắt đầu phát triển công nghệ nhận dạng giọng nói tiếng Việt Origin-STT của VAIS. Từng có thời gian tham gia xử lý ngôn ngữ tự nhiên tiếng Việt cùng PGS.TS Lương Chi Mai – khi ấy là Phó Viện trưởng Viện công nghệ tin học (Viện Khoa học và Công nghệ Việt Nam) nên Đỗ Quốc Trường biết được xử lý ngôn ngữ tự nhiên là một trong những phần khó nhất vì nó liên quan đến việc phải hiểu ý nghĩa ngôn ngữ - công cụ hoàn hảo nhất của tư duy và giao tiếp. Ở Việt Nam vấn đề nhận dạng giọng nói để xây dựng một công cụ “gỡ băng” mới chỉ là một phần nhỏ trong tổng các bài toán nhận dạng tiếng nói, tổng hợp tiếng nói, nhận dạng chữ viết, dịch tự động, tóm tắt văn bản hay tìm kiếm, trích chọn thông tin bằng tiếng Việt mà nhìn chung còn nhiều hạn chế do chỉ mới bắt đầu chập chững những bước đi đầu tiên, nghiên cứu còn lẻ tẻ, thiếu nhiều “hạ tầng” và tài nguyên cho máy học như từ điển dùng cho máy học, kho dữ liệu .

Độ chính xác trung bình là 93,6%

Việc xử lý ngôn ngữ tự nhiên không phải là bài toán mới trên thế giới, mà các nước đã đi trước Việt Nam cả nửa thế kỷ nên VAIS có thể tận dụng được kinh nghiệm đi trước trong phân tích sơ bộ, đã có sẵn các lý thuyết về thông tin và khoa học máy tính, xử lý tín hiệu số. Nhưng tiếng Việt có những đặc điểm riêng, chưa kể là có sự khác biệt lớn giữa tiếng nói của những người nói khác nhau, tốc độ nói, ngữ cảnh và môi trường âm học khác nhau.

Nếu như các startup trong lĩnh vực xử lý ngôn ngữ tự nhiên tiếng Anh luôn sẵn nguồn data lớn được chia sẻ công khai trên internet với hàng nghìn giờ thì dữ liệu tiếng Việt rất ít và lẻ tẻ, chỉ khoảng 20-30 giờ.

Đỗ Quốc Trường giới thiệu về VAIS tại Vietnam Frontier Summit 2018. Ảnh: BTC
Đỗ Quốc Trường giới thiệu về VAIS tại Vietnam Frontier Summit 2018. Ảnh: BTC

Bắt đầu nghiên cứu trong hoàn cảnh thiếu dữ liệu nhưng, Đỗ Quốc Trường hiểu rằng ‘đây là lĩnh vực không thể đi tắt đón đầu'. Để có nền tảng cơ bản, anh nghiên cứu cuốn Ngữ âm tiếng Việt của GS Đoàn Thiện Thuật để hiểu được về những điều cơ bản nhất trong tiếng Việt như cấu trúc âm tiết, hệ thống thanh điệu, hệ thống âm đầu, hệ thống vần, chữ viết … Sau đó, anh và các cộng sự sử dụng công nghệ deep learning – công nghệ deep learning – công nghệ phổ biến trên thế giới dùng trong các ứng dụng AI, hoạt động theo hướng mô phỏng cách thức bộ não hoạt động để “dạy” cho máy học hiểu về 45 âm vị và 7000 từ đơn trong tiếng Việt.

Để xây dựng một giờ dữ liệu theo quy chuẩn về xử lý giọng nói phải mất 4-5 giờ thực tế. VAIS mời các chuyên gia ngôn ngữ ngồi nghe và chẻ nhỏ từng âm vị theo thời gian tuyến tính. Cách đọc, phân loại theo từng âm vị, máy học được “dạy” để biến đổi linh hoạt. Ví dụ, âm vị ‘ôi’, nếu chữ ‘t’ đứng trước sẽ phát âm khác với chữ “ôi” đứng trước là chữ “đ” hoặc chữ “tr”.
“Mỗi âm vị sẽ có cách phát âm khác trong những ngữ cảnh, môi trường, giọng nói khác nhau. Từ nguồn dữ liệu đầu vào, công nghệ deep learning giúp mô hình hoá được âm ‘ôi’ một cách chuẩn nhất” – Đỗ Quốc Trường giải thích kỹ hơn về cách xử lý của hệ thống.

Hiện nay, với 3000 giờ dữ liệu, sản phẩm Origin STT của VAIS đảm bảo việc nhận dạng tiếng Việt đạt độ chính xác trung bình là 93,6%, trong đó, giọng Bắc – Trung – Nam lần lượt là 95% - 85% - 90%.

Bằng cách thường xuyên quan sát và nghiên cứu các công bố quốc tế về AI nói chung và xử lý ngôn ngữ tự nhiên nói riêng, founder của VAIS rất tự tin về công nghệ của mình. Quan điểm của anh là tận dụng tối đa công nghệ trên thế giới và điều chỉnh cho phù hợp trong điều kiện tiếng Việt. Ví như trong tiếng Anh không có thanh điệu như tiếng Việt, VAIS đã kết hợp các công nghệ đã có với thuật toán trích chọn đặc - mô hình hóa các âm thanh dựa vào 3 bộ phận là thanh quản, vòm miệng và vòm mũi. Mỗi âm vị phát ra sẽ có tần số, độ rung và cách phát âm khác nhau, như dấu ‘sắc’ có tần số rung cao hơn so với dấu ‘nặng’, âm ‘o’, ‘a’ có cùng tần số rung nhưng khẩu hình vòm miệng, vị trí lưỡi lại khác nhau. Vì vậy, mỗi âm vị, thanh điệu được ‘dạy’ bằng thuật toán và data để cho kết quả văn bản chính xác nhất.

Nhờ tính chính xác cao nên VAIS đã được Văn phòng Trung ương Đảng ứng dụng và sau đó giới thiệu cho Văn phòng Quốc hội trong kỳ họp lần thứ XIV. Tại phiên chất vấn của kỳ họp thứ 7 Quốc hội khóa XIV hồi năm 2019, các thư ký của Quốc hội cũng như các Bộ trưởng có phần ‘nhàn tay” hơn hẳn. Thay vì ghi chép hết tốc lực nội dung, ban thư ký chỉ cần theo dõi văn bản được chạy ra từ Origin-STT. Tổng Thư ký Quốc hội, Chủ nhiệm Văn phòng Quốc hội Nguyễn Hạnh Phúc nhận xét: ‘Thông thường, phải mất 5 ngày để chuyển đổi tệp ghi âm thành văn bản sau phiên họp dài. Hiện tại, với phần mềm chuyển giọng nói thành văn bản thì chỉ mất 1 ngày”.

Nói đến một sản phẩm ứng dụng AI với hệ thống dữ liệu và thời gian đưa ra văn bản có độ trễ 0.5 giây so với thời gian của người nói, hẳn nhiều người đang nghĩ máy móc của VAIS khủng lắm? Trường cười và đưa cho tôi xem một chiếc hộp màu đen, kích thước khoảng 15x15cm, nặng khoảng 600 gram.

“Nhiều người nghĩ AI phải là cái gì đó cao siêu lắm nhưng thực tế chỉ gọn nhẹ vậy thôi. Người dùng chỉ cần nối với đường âm thanh, bật wifi kết nối với máy tính hoặc smartphone, hệ thống văn bản sẽ tự động cập nhật trên phần mềm. Do có wifi riêng tự kết nối tới máy tính bảng, điện thoại, không cần truy cập internet, bảo mật tuyệt đối với các cuộc họp quan trọng”- Trường nói.

Nếu như ở thời điểm ra mắt năm 2018, VAIS là sản phẩm hỗ trợ gỡ bang duy nhất thì giờ đây, họ đã có nhiều đối thủ đến từ các ông lớn như Viettel, FPT,… Thế nhưng người sáng lập VAIS không mảy may băn khoăn, thậm chí còn tỏ ra vui vẻ bởi anh cho rằng lĩnh vực xử lý ngôn ngữ tự nhiên tiếng Việt, cần có thêm nhiều đối thủ để tăng tính cạnh tranh và thúc đẩy sự phát triển cho cả ngành.

“Nhiều đơn vị có mong muốn xây dựng hệ thống metal data file âm thanh đã ghi từ trước đến nay và cho phép tìm kiếm bằng công cụ tìm kiếm từ khóa. Đây cũng là nhu cầu khá phổ biến và quan trọng khi file dữ liệu lên tên hàng chục nghìn file ghi âm và hàng triệu giờ. Công nghệ nhận dạng tiếng nói sẽ là nền tảng của nhiều ứng dụng khác trong chuyển đổi số như nhà thông minh, trợ lý ảo… Vì thế, chúng tôi đang cung cấp thêm dịch vụ API để lập trình viên, đối tác có thể dễ dàng tích hợp và phát triển các ứng dụng của công nghệ nhận dạng giọng nói tạo ra những sản phẩm riêng. Đây sẽ là cơ sở quan trọng để thúc đẩy ” – Đỗ Quốc Trường nói thêm.

Các giải thưởng của VAIS
- Giải Nhất về nhận dạng tiếng nói trong cuộc thi VLSP 2018 (Vietnamese Language and Speech Processing)- một hội nghị thường niên về Xử lý ngôn ngữ tự nhiên và tiếng nói cho tiếng Việt.
- Giải Nhất Nhân tài Đất Việt 2018.