Trang chủ Công nghệ

Công nghệ

VAIS: Công cụ AI hiểu chính xác thanh điệu tiếng Việt

14/08/2020 11:59

Việc chuyển những file âm thanh thành văn bản hay còn gọi là ‘gỡ băng’ tốn rất nhiều thời gian của các phóng viên, biên tập viên hay thư ký các cuộc họp của Chính phủ, Bộ, ngành… VAIS đã giúp giải quyết công việc này nhờ vào công cụ AI được “dạy” nhận dạng được cả các dấu, thanh điệu tiếng Việt một cách chính xác.

‘Làm gì đó cho tiếng Việt’

Lâu nay, khâu ‘gỡ băng’ (chuyển tiếng nói thành văn bản) nhanh, chính xác trong các cuộc họp của Chính phủ và các Bộ ngành luôn ngốn rất nhiều thời gian của đội ngũ thư ký, phóng viên. Thông thường, để gõ lại chính xác khoảng 1 giờ ghi âm, mỗi người sẽ cần khoảng 4-6 giờ gỡ băng tuỳ theo tốc độ, nội dung của người nói. Mỗi năm, cơ quan chính phủ, bộ ban ngành có hàng nghìn cuộc họp với chục hàng nghìn giờ audio. Với những cuộc họp quan trọng như chất vấn tại kỳ họp thứ 8 Quốc hội khóa XIV, ban thư ký cần tới hàng chục người gõ lại nội dung cuộc họp. Nếu họp buổi sáng thì đến chiều phải có văn bản tổng hợp nên các văn phòng đều rất cần công cụ hỗ trợ.

Các founder của VAIS giới thiệu về sản phẩm ‘gỡ băng’ tại Nhân tài Đất Việt 2019. Ảnh: Dân trí.

Trên thế giới, công nghệ nhận dạng giọng nói, nhất là nhận dạng tiếng Anh đã được nghiên cứu từ rất lâu với nhiều sản phẩm chuyển từ giọng nói sang văn bản điển hình như Google Assistant, Amazon Alexa, Apple Siri nên việc gỡ băng này đã đơn giản hóa rất nhiều. Nhưng 7 năm trước, Đỗ Quốc Trường, CEO của VAIS biết đây là một bài toán khó ở Việt Nam vì ở thời điểm ấy, nhiều đơn vị ở Việt Nam đã nghiên cứu công nghệ nhận dạng tiếng nói, chuyển tiếng nói thành văn bản nhưng lại chưa có một sản phẩm cụ thể nào ra đời.

Lúc đó, khi tới Nhật học Thạc sỹ và Tiến sĩ, Đỗ Quốc Trường thực hiện nghiên cứu về công nghệ sử dụng trí tuệ nhân tạo (AI) để dịch tiếng nói Anh - Nhật 2 chiều và tự hỏi “công nghệ trên thế giới đã phát triển như vậy tại sao không làm một sản phẩm tương tự với tiếng mẹ đẻ của mình?”.

‘Khi ấy tôi làm vì sở thích cá nhân, mong muốn tiếng Việt sẽ không ở lại phía sau trong thời buổi việc chuyển ngữ từ tiếng nói sang văn bản ngày càng phổ biến và nhìn chung công nghệ nhận dạng tiếng nói, dữ liệu tiếng nói để máy học đang rất phát triển này” – Đỗ Quốc Trường nói về lý do bắt đầu phát triển công nghệ nhận dạng giọng nói tiếng Việt Origin-STT của VAIS. Từng có thời gian tham gia xử lý ngôn ngữ tự nhiên tiếng Việt cùng PGS.TS Lương Chi Mai – khi ấy là Phó Viện trưởng Viện công nghệ tin học (Viện Khoa học và Công nghệ Việt Nam) nên Đỗ Quốc Trường biết được xử lý ngôn ngữ tự nhiên là một trong những phần khó nhất vì nó liên quan đến việc phải hiểu ý nghĩa ngôn ngữ - công cụ hoàn hảo nhất của tư duy và giao tiếp. Ở Việt Nam vấn đề nhận dạng giọng nói để xây dựng một công cụ “gỡ băng” mới chỉ là một phần nhỏ trong tổng các bài toán nhận dạng tiếng nói, tổng hợp tiếng nói, nhận dạng chữ viết, dịch tự động, tóm tắt văn bản hay tìm kiếm, trích chọn thông tin bằng tiếng Việt mà nhìn chung còn nhiều hạn chế do chỉ mới bắt đầu chập chững những bước đi đầu tiên, nghiên cứu còn lẻ tẻ, thiếu nhiều “hạ tầng” và tài nguyên cho máy học như từ điển dùng cho máy học, kho dữ liệu .

Độ chính xác trung bình là 93,6%

Việc xử lý ngôn ngữ tự nhiên không phải là bài toán mới trên thế giới, mà các nước đã đi trước Việt Nam cả nửa thế kỷ nên VAIS có thể tận dụng được kinh nghiệm đi trước trong phân tích sơ bộ, đã có sẵn các lý thuyết về thông tin và khoa học máy tính, xử lý tín hiệu số. Nhưng tiếng Việt có những đặc điểm riêng, chưa kể là có sự khác biệt lớn giữa tiếng nói của những người nói khác nhau, tốc độ nói, ngữ cảnh và môi trường âm học khác nhau.

Nếu như các startup trong lĩnh vực xử lý ngôn ngữ tự nhiên tiếng Anh luôn sẵn nguồn data lớn được chia sẻ công khai trên internet với hàng nghìn giờ thì dữ liệu tiếng Việt rất ít và lẻ tẻ, chỉ khoảng 20-30 giờ.

Đỗ Quốc Trường giới thiệu về VAIS tại Vietnam Frontier Summit 2018. Ảnh: BTC

Bắt đầu nghiên cứu trong hoàn cảnh thiếu dữ liệu nhưng, Đỗ Quốc Trường hiểu rằng ‘đây là lĩnh vực không thể đi tắt đón đầu'. Để có nền tảng cơ bản, anh nghiên cứu cuốn Ngữ âm tiếng Việt của GS Đoàn Thiện Thuật để hiểu được về những điều cơ bản nhất trong tiếng Việt như cấu trúc âm tiết, hệ thống thanh điệu, hệ thống âm đầu, hệ thống vần, chữ viết … Sau đó, anh và các cộng sự sử dụng công nghệ deep learning – công nghệ deep learning – công nghệ phổ biến trên thế giới dùng trong các ứng dụng AI, hoạt động theo hướng mô phỏng cách thức bộ não hoạt động để “dạy” cho máy học hiểu về 45 âm vị và 7000 từ đơn trong tiếng Việt.

Để xây dựng một giờ dữ liệu theo quy chuẩn về xử lý giọng nói phải mất 4-5 giờ thực tế. VAIS mời các chuyên gia ngôn ngữ ngồi nghe và chẻ nhỏ từng âm vị theo thời gian tuyến tính. Cách đọc, phân loại theo từng âm vị, máy học được “dạy” để biến đổi linh hoạt. Ví dụ, âm vị ‘ôi’, nếu chữ ‘t’ đứng trước sẽ phát âm khác với chữ “ôi” đứng trước là chữ “đ” hoặc chữ “tr”.

“Mỗi âm vị sẽ có cách phát âm khác trong những ngữ cảnh, môi trường, giọng nói khác nhau. Từ nguồn dữ liệu đầu vào, công nghệ deep learning giúp mô hình hoá được âm ‘ôi’ một cách chuẩn nhất” – Đỗ Quốc Trường giải thích kỹ hơn về cách xử lý của hệ thống.

Hiện nay, với 3000 giờ dữ liệu, sản phẩm Origin STT của VAIS đảm bảo việc nhận dạng tiếng Việt đạt độ chính xác trung bình là 93,6%, trong đó, giọng Bắc – Trung – Nam lần lượt là 95% - 85% - 90%.

Bằng cách thường xuyên quan sát và nghiên cứu các công bố quốc tế về AI nói chung và xử lý ngôn ngữ tự nhiên nói riêng, founder của VAIS rất tự tin về công nghệ của mình. Quan điểm của anh là tận dụng tối đa công nghệ trên thế giới và điều chỉnh cho phù hợp trong điều kiện tiếng Việt. Ví như trong tiếng Anh không có thanh điệu như tiếng Việt, VAIS đã kết hợp các công nghệ đã có với thuật toán trích chọn đặc - mô hình hóa các âm thanh dựa vào 3 bộ phận là thanh quản, vòm miệng và vòm mũi. Mỗi âm vị phát ra sẽ có tần số, độ rung và cách phát âm khác nhau, như dấu ‘sắc’ có tần số rung cao hơn so với dấu ‘nặng’, âm ‘o’, ‘a’ có cùng tần số rung nhưng khẩu hình vòm miệng, vị trí lưỡi lại khác nhau. Vì vậy, mỗi âm vị, thanh điệu được ‘dạy’ bằng thuật toán và data để cho kết quả văn bản chính xác nhất.

Nhờ tính chính xác cao nên VAIS đã được Văn phòng Trung ương Đảng ứng dụng và sau đó giới thiệu cho Văn phòng Quốc hội trong kỳ họp lần thứ XIV. Tại phiên chất vấn của kỳ họp thứ 7 Quốc hội khóa XIV hồi năm 2019, các thư ký của Quốc hội cũng như các Bộ trưởng có phần ‘nhàn tay” hơn hẳn. Thay vì ghi chép hết tốc lực nội dung, ban thư ký chỉ cần theo dõi văn bản được chạy ra từ Origin-STT. Tổng Thư ký Quốc hội, Chủ nhiệm Văn phòng Quốc hội Nguyễn Hạnh Phúc nhận xét: ‘Thông thường, phải mất 5 ngày để chuyển đổi tệp ghi âm thành văn bản sau phiên họp dài. Hiện tại, với phần mềm chuyển giọng nói thành văn bản thì chỉ mất 1 ngày”.

Nói đến một sản phẩm ứng dụng AI với hệ thống dữ liệu và thời gian đưa ra văn bản có độ trễ 0.5 giây so với thời gian của người nói, hẳn nhiều người đang nghĩ máy móc của VAIS khủng lắm? Trường cười và đưa cho tôi xem một chiếc hộp màu đen, kích thước khoảng 15x15cm, nặng khoảng 600 gram.

“Nhiều người nghĩ AI phải là cái gì đó cao siêu lắm nhưng thực tế chỉ gọn nhẹ vậy thôi. Người dùng chỉ cần nối với đường âm thanh, bật wifi kết nối với máy tính hoặc smartphone, hệ thống văn bản sẽ tự động cập nhật trên phần mềm. Do có wifi riêng tự kết nối tới máy tính bảng, điện thoại, không cần truy cập internet, bảo mật tuyệt đối với các cuộc họp quan trọng”- Trường nói.

Nếu như ở thời điểm ra mắt năm 2018, VAIS là sản phẩm hỗ trợ gỡ bang duy nhất thì giờ đây, họ đã có nhiều đối thủ đến từ các ông lớn như Viettel, FPT,… Thế nhưng người sáng lập VAIS không mảy may băn khoăn, thậm chí còn tỏ ra vui vẻ bởi anh cho rằng lĩnh vực xử lý ngôn ngữ tự nhiên tiếng Việt, cần có thêm nhiều đối thủ để tăng tính cạnh tranh và thúc đẩy sự phát triển cho cả ngành.

“Nhiều đơn vị có mong muốn xây dựng hệ thống metal data file âm thanh đã ghi từ trước đến nay và cho phép tìm kiếm bằng công cụ tìm kiếm từ khóa. Đây cũng là nhu cầu khá phổ biến và quan trọng khi file dữ liệu lên tên hàng chục nghìn file ghi âm và hàng triệu giờ. Công nghệ nhận dạng tiếng nói sẽ là nền tảng của nhiều ứng dụng khác trong chuyển đổi số như nhà thông minh, trợ lý ảo… Vì thế, chúng tôi đang cung cấp thêm dịch vụ API để lập trình viên, đối tác có thể dễ dàng tích hợp và phát triển các ứng dụng của công nghệ nhận dạng giọng nói tạo ra những sản phẩm riêng. Đây sẽ là cơ sở quan trọng để thúc đẩy ” – Đỗ Quốc Trường nói thêm.

Các giải thưởng của VAIS

- Giải Nhất về nhận dạng tiếng nói trong cuộc thi VLSP 2018 (Vietnamese Language and Speech Processing)- một hội nghị thường niên về Xử lý ngôn ngữ tự nhiên và tiếng nói cho tiếng Việt.

- Giải Nhất Nhân tài Đất Việt 2018.

Bích Ngọc

TIN TIÊU ĐIỂM

CHUYÊN MỤC