Đây là một trong những công nghệ cốt lõi của kỷ nguyên VUI (Voice User Interface) trong cuộc cách mạng 4.0 đang đến rất gần.
Sự khác biệt mang tính địa phương
Tôi gặp TS Nguyễn Thị Thu Trang tại văn phòng lab của chị ở ĐH Bách khoa Hà Nội. Người phụ nữ có nụ cười tươi ấy hồ hởi nói với tôi về công nghệ text to speech được dự đoán sẽ làm mưa làm gió trên thế giới và cả những dự định phát triển ứng dụng này theo hướng học sâu (deep learning).
Truy cập vào ứng dụng của Vbee, chị Trang chỉ cho tôi các ứng dụng cụ thể của công nghệ text to speech mà startup của chị đang phát triển như báo nói, đọc truyện, bản đồ giao thông Vadi, thuyết minh phim. Trên giao diện chính, chị Trang gõ một đoạn văn bản bất kỳ vào phần trải nghiệm và ngay lập tức, hệ thống trả về giọng đọc nam chuẩn Hà Nội với ngắt nghỉ dấu câu gần như chính xác. Nếu không biết đây là hệ thống hoàn toàn do máy chuyển đổi, chắc hẳn tôi đã nghĩ có một người nào đó ngồi trực hệ thống để đọc.
Chia sẻ về quá trình nghiên cứu công nghệ này, TS Trang cho biết, năm 2010, chị sang Pháp làm nghiên cứu luận án tiến sỹ về đề tài này và bảo vệ thành công vào năm 2015. Sau đó, chị nhận ra, công nghệ này không chỉ hữu ích với những người khiếm thị mà có thể sử dụng trong nhiều lĩnh vực của cuộc sống.
Tiến sỹ Nguyễn Thị Thu Trang, giảng viên Đại học Bách khoa Hà Nội.
Chị Trang chia sẻ: “Ở nước ngoài, công nghệ text to speech đã hoàn thiện từ cách đây hàng chục năm và ứng dụng trong nhiều lĩnh vực của đời sống như đọc các thông báo công cộng, tổng đài ảo, nhắc nhở tiền điện nước…. Ở Việt Nam lĩnh vực này còn rất mới. Sau khi nghiên cứu công nghệ này, tôi tin rằng sẽ có nhiều ứng dụng hữu ích trong cuộc sống phục vụ cộng đồng và xã hội”.
Năm 2016, sau khi làm việc với VNPT Technology, TS Trang và các cộng sự đã triển khai hệ thống tổng đài cho ảo, chịu trách nhiệm trả lời các thông tin tự động dành cho khách hàng. Chị Trang cho biết, trước đó nhà mạng này đã tham khảo nhiều đơn vị khác.
Trước vấn đề làm sao để tạo ra sự khác biệt và cho ra giọng đọc tối ưu so với các đơn vị khác, TS Trang cho biết, do chị có thời gian dài nghiên cứu về ngôn ngữ học tiếng Việt ở Pháp trước khi chuyển sang làm về công nghệ, nên chị có thể địa phương hóa giọng đọc của Vbee.
Ví dụ, với khoảng 6 giờ đọc và 450 câu, TS Trang phải tính toán tối ưu được dữ liệu, thiết kế giọng đọc và cấu trúc ngôn ngữ để bao phủ được toàn bộ câu, cụm từ, từ, âm tiết, âm vị, ngữ âm và các ngữ cảnh khác nhau, thành phần câu trong văn bản. Điều này phải bắt đầu từ việc phân tích ngôn ngữ sau đó mới đến cấu trúc hệ thống và tối ưu dữ liệu.
Hay như việc phát triển ngôn ngữ giữa các vùng miền cũng có nhiều khác biệt cần xử lý. Ví như miền Bắc, phân biệt rất rõ các dấu ngang, huyền, hỏi, ngã, sắc, nặng nhưng miền Nam không phân biệt được hỏi và ngã. Hay ở miền Nam và miền Trung, phát âm có phân biệt rất rõ về gi, tr, ch, r…. nhưng miền Bắc lại không phân biệt rõ ràng. Trong khi đó, văn bản đầu vào là giống nhau. Điều này cần phải có cách xử lý cụ thể từ cầu trúc tiếng nói tự nhiên, phân tích văn bản rồi đưa ra âm vị, ngữ cảnh, ngữ điệu… trước khi đưa vào để tổng hợp tiếng nói.
5 giây để chuyển 400 chữ thành giọng nói
Theo TS Trang để xử lý một đoạn văn bản khoảng 400 chữ, VBee cần từ 3-5 giây để xử lý thành giọng nói. Với những đoạn văn bản dài hơn, hệ thống sẽ tự cắt ra và xử lý song song để cho sản phẩm trong thời gian nhanh nhất.
“Thời gian xử lý tùy thuộc vào yêu cầu của đối tác. Nếu muốn nhanh, chúng tôi cần đầu tư lớn về mặt thiết bị phần cứng để tăng tốc thời gian xử lý. Nhiều khách hàng yêu cầu phải xử lý theo thời gian thực, nhất là hệ thống tổng đài ảo. Vbee có thể phục vụ theo mọi yêu cầu của đối tác” - TS Trang cho biết.
Giao diện trực tuyến của Vbee.
Hiện nay, hệ thống dữ liệu phục vụ việc chuyển văn bản tiếng Việt thành giọng nói mà TS Thu Trang phát triển đang có khoảng 450 câu với 6 giờ thu âm thành phẩm. Tuy nhiên, chị Trang và các cộng sự đã thiết kế bộ dữ liệu mới với dung lượng gấp khoảng 6 lần để phục vụ công nghệ học sâu (deep learning).
“Với công nghệ mới, độ bao phủ sẽ rộng hơn và cho kết quả chính xác hơn. Yêu cầu của công nghệ deep learning là phải bao phủ rộng nhất có thể về ngữ cảnh. Trước đây, chúng tôi chỉ cần bao quát âm vị trước, âm vị sau thì bây giờ, chúng tôi cần nhiều hơn thế. Ví dụ, trong câu “hôm nay tôi đi chơi”, chữ “tôi” trong câu này khác với chữ “tôi” trong những câu khác. Nếu dữ liệu có nhiều ngữ cảnh, hệ thống sẽ tự tìm ngữ cảnh gần nhất với nó” – TS Trang giải thích. Hệ thống dữ liệu mới được chị Trang dự trù sẽ thực hiện trong 3 tháng. Sau khi hoàn thành thu âm giọng đọc khớp với yêu cầu, dữ liệu sẽ được đưa vào chiết xuất đặc trưng và huấn luyện cho máy.
Hiện nay, ngoài việc áp dụng cho tổng đài ảo, công nghệ chuyển văn bản tiếng Việt thành giọng nói đã được Vbee thử nghiệm với sản phẩm bản đồ giao thông Vadi, nhà thông minh Lumi và các trung tâm hỗ trợ chăm sóc khách hàng…
Mới được ra mắt thử nghiệm vào đầu năm 2018, nhưng Vadi đã có khoảng 5.000 người dùng và có tính năng tương tự như Google Maps. Vào giờ cao điểm, các công tác viên sẽ cập nhật thông tin tắc đường, các sự cố giao thông vào hệ thống. Khi lái xe đến gần khu vực có sự cố, tổng đài sẽ phát ra cảnh báo bằng giọng nói và gợi ý lái xe cung đường khác. Ngoài ra, ứng dụng cũng tích hợp công nghệ đọc báo, tin tức khi người dùng có yêu cầu hoặc yêu cầu tìm đường tới một địa điểm nào đó bằng giọng nói, không cần thao tác bằng tay.
TS Trang cho biết, thực tế Vadi chỉ là một trong những ứng dụng của công nghệ thú vị này. Thị trường tổng đài chăm sóc khách hàng cũng rất lớn và có hữu ích trong việc giảm giờ lao động của nhân viên. Ví dụ, một trung tâm thương mại muốn kiểm tra độ hài lòng của khác hàng có thể cài đặt hệ thống tự động gọi điện xác nhận hóa đơn mua bán, đánh giá thái độ của nhân viên bán hàng. Mọi đánh giá hoặc mong muốn của khách hàng sẽ được hướng dẫn thực hiện bằng cách chọn phím tương ứng. Hay đơn cử như tập đoàn điện lực cũng có thể ứng dụng trong việc nhắc hóa đơn tiền điện hàng tháng.
Quay trở lại với lý do đã khiến nữ tiến sỹ bắt đầu nghiên cứu công nghệ này là phục vụ người khiếm thị, chị Trang tiết lộ, chị đang khảo sát nhu cầu về sách, truyện để lên kế hoạch xin bản quyền từ các nhà xuất bản và tiến hành chuyển đổi thành sách nói.
Text to speech sẽ là một trong những công nghệ nền tảng của kỷ nguyên giao tiếp bằng giọng nói (Age of VUI) trong cuộc cách mạng 4.0. “Chỉ vài năm nữa thôi, nếu có câu hỏi, trẻ em sẽ hỏi những chiếc loa thông minh… chứ không hỏi bố mẹ. Hoặc các gia đình có thể cá nhân hóa giọng nói của bố mẹ và chuyển những câu chuyện cổ tích thành giọng nói để kể chuyện cho con hàng đêm. Vbee muốn trở thành một phần trong những thay đổi đó” - TS Trang bày tỏ.