Thay vì dành thời gian ghi chép, bạn có thể để cho chiếc máy điện thoại chuyển hóa tiếng nói của chính mình hoặc của người khác thành chữ viết theo thời gian thực.

Đây là loại công nghệ từ lâu đã được nghiên cứu và phát triển trên thế giới, đến nay một số sản phẩm đã đạt ngưỡng chính xác 95% đối với ngôn ngữ tiếng Anh. Tuy nhiên, đối với các cá nhân, cơ quan, tổ chức của Việt Nam mong muốn sử dụng công cụ chuyển ngôn ngữ nói tiếng Việt thành chữ viết, với nguồn gốc sản phẩm công nghệ từ trong nước (nhằm tránh sử dụng phần mềm của nước ngoài để đảm bảo tính bảo mật trong nhiều trường hợp), nhu cầu của họ có thể không lâu nữa cũng sẽ được đáp ứng.

Tác giả của sản phẩm công nghệ đó là PGS-TS Lương Chi Mai – Giám đốc Công ty Hệ thống trí tuệ nhân tạo VAIS, nguyên Phó Viện trưởng Viện Công nghệ thông tin (Viện Hàn lâm Khoa học và Công nghệ Việt Nam) với sản phẩm nhận dạng tiếng nói chuyển đổi âm thanh thành văn bản tự động theo thời gian thực.

14 năm dạy máy học tiếng Việt

Chia sẻ với chúng tôi, PGS. Mai cho biết hệ thống chuyển đổi giọng nói ra văn bản là một bài toán khó, do thách thức trong nhận diện sự khác biệt từ cách nói của mỗi người, phương ngữ vùng miền cho tới điều kiện môi trường xung quanh. Bản thân mỗi vấn đề trên đều trở thành một bài toán được nhiều nhà khoa học nghiên cứu nhiều năm nay.

Ví dụ, trong tiếng Việt thường xuyên có những trường hợp cùng một nội dung được phát âm theo cách khác nhau theo sự đa dạng vùng miền, theo giọng miền Bắc, giọng miền Nam, miền Trung, theo đặc thù riêng của giọng từng cá nhân, hay khi nói to, khi nó nhỏ… Trong những trường hợp đó, không hề dễ để có thể ánh xạ những sóng âm khác nhau đó thành cùng một nội dung hiển thị.

PGS-TS Lương Chi Mai giới thiệu sản phẩm nhận dạng tiếng nói chuyển đổi âm thanh thành văn bản tự động với thời gian thực tại techshow AI4Life. Ảnh: Lê Hằng

“Bài toán từ sóng âm sang văn bản là bài toán chung không chỉ là vấn đề của riêng Việt Nam mà hầu như nước nào cũng có”, PGS. Mai nói. Mặc dù có những công thức tính toán chung, nhưng từng tham số trong mỗi công thức có giá trị thay đổi theo từng ngôn ngữ, và để ước tính giá trị của các tham số người ta phải thu thập, khảo sát trên nhiều giọng nói. Theo PGS. Mai, khó khăn lớn khi phát triển công cụ nhận diện ngôn ngữ tiếng Việt là chưa có nghiên cứu cơ bản về ngữ âm giúp chỉ ra đặc trưng riêng của ngôn ngữ, theo đó có thể phân biệt tiếng nói có ngữ nghĩa với những âm thanh khác trong đời sống.

Trên cơ sở việc phân tích đặc thù về mặt ngữ âm, thanh điệu trong tiếng Việt, PGS Lương Chi Mai và nhóm nghiên cứuđã phát triển thành công bộ từ điển phát âm cũng như vận dụng mô hình hóa thanh điệu tiếng nói Fujisaki (Nhật Bản) vào mô hình hóa thanh điệu tiếng Việt.

Tính đến thời điểm này, hệ thống chuyển đổi âm thanh thành văn bản tự động với thời gian thực đã thu hàng nghìn giọng nói khác nhau từ khắp các vùng miền trên cả nước. Để làm công việc này, nhóm nghiên cứu của PGS Mai bắt đầu nhen nhóm ý tưởng từ năm 2004. Sau mười bốn năm miệt mài “dạy” máy học tiếng Việt, đến nay nhóm đã có thể tự tin đem đứa con tinh thần đi giới thiệu và áp dụng vào cuộc sống.

Theo PGS Mai, hiện tại phần mềm công nghệ của nhóm đã tích hợp được với các thiết bị thông minh, cho phép nhận diện những cách nói đơn giản. “Với những chủ đề thông thường, độ chính xác lên đến 95-99% nếu đó là bài phát biểu dạng đọc, còn với khoảng 100 từ vựng được sử dụng trong nhà thông minh thì độ chính xác có thể lên đến 99%”. Một ưu điểm của hệ thống này là có thể xử lý nhiễu ở dạng thông thường, như trong môi trường có tiếng quạt, tiếng điều hòa, tiếng ồn xe cộ… Còn với môi trường có nhiều giọng nói khác nhau thì micro bắt tiếng sẽ phải để gần với khoảng cách khoảng 20-30cm.

Có công nghệ của riêng mình mới bảo đảm tính bảo mật

Tại VLSP 2018 - Hội thảo quốc tế về xử lý ngôn ngữ và tiếng nói Việt Nam với sự tham gia của nhiều công ty lớn tại Việt Nam, sản phẩm nhận dạng tiếng nói chuyển đổi âm thanh thành văn bản tự động với thời gian thực của Công ty VAIS đã giành giải nhất.

Thành viên ban giám khảo, TS Nguyễn Văn Huy – khoa Điện tử, trường Đại học Công nghiệp, Đại học Thái Nguyên, cho biết, tại cuộc thi sản phẩm đã đạt được độ chính xác trên 94% với dữ liệu tiếng nói trên ba miền, tuy nhiên đó mới chỉ dừng lại ở các chủ đề nhỏ, vẫn ở dạng đọc văn bản, còn chuyển từ ngôn ngữ tự nhiên sang dạng văn bản thì vẫn chưa được đánh giá.

PGS Lương Chi Mai cũng thừa nhận, với những chủ đề tản mạn, ngữ điệu khó đoán thì vẫn là một bài toán khó, không chỉ với tiếng Việt mà còn với các ngôn ngữ phổ biến khác như tiếng Anh. Ví dụ để thay được các nhân viên y tá ngồi cạnh bác sỹ đánh tên bệnh, tên thuốc tại các phòng khám, bệnh viện… thì nhóm nghiên cứu còn phải dạy cho máy học các tên thuốc, các tên bệnh… hay liên quan đến chủ đề nghệ thuật, muốn ghi lại bài phát biểu của các nhạc sỹ, nghệ sỹ thì cũng cần phải có thời gian để tìm hiểu và dạy máy lượng từ vựng nhất định.

“Tuy nhiên, chúng tôi đã nắm được cách làm, chỉ cần thêm thời gian để dạy cho máy trở thành công cụ có khả năng ứng dụng rộng rãi. Cũng có người hỏi tôi rằng, tại sao nhóm lại nghiên cứu vấn đề này trong khi hệ thống của Google cũng đã cung cấp tính năng tương tự trong vài năm gần đây.Tôi trả lời rằng, nếu đặt bài toán này với Google thì chắc chắn họ sẽ không mất nhiêu thời gian để giải quyết với điều kiện vượt trội cả về tài chính cũng như nhân lực; nhưng trong nhiều công việc, nhiều trường hợp đòi hỏi tính bảo mật cao thì mình phải có được công nghệ của riêng mình. Quan trọng ở đây là chúng tôi làm chủ được công nghệ và có được độ sáng tạo nhất định, phù hợp với điều kiện ở Việt Nam” - PGS Mai nói.

Mục đích cuối cùng mà nhóm nghiên cứu của PGS Mai hướng tới đối với hệ thống này đó là chuyển đổi từ ngôn ngữ giao tiếp tự nhiên sang dạng văn bản với độ chính xác cao với nhiều chủ đề thuộc nhiều lĩnh vực khác nhau. Theo PGS Mai, việc giải quyết bài toán này đòi hỏi nhóm phải điều chỉnh mô hình phân tích, thu thêm giọng nói…, “tức là lại bắt máy học tiếp”.

Mỗi hoàn cảnh sẽ đặt ra một câu hỏi và sẽ có một câu trả lời riêng. “Hiện nay các cơ quan, đơn vị, những nơi có hệ thống audio lớn muốn chuyển đổi ngôn ngữ nói thành văn bản, hay những công ty sản xuất thiết bị nhà thông minh, loa thông minh là những đối tượng nhóm nghiên cứu hướng tới và đang có những thử nghiệm nhất định. Hiện văn phòng trung ương cũng đã đặt vấn đề với nhóm nghiên cứu để dần dần có thể thay thế thư ký tốc ký tại các cuộc họp” - PGS Lương Chi Mai chia sẻ.