Trải qua bốn phiên bản nâng cấp, từ việc chỉ có thể chuyển hóa đơn thuần văn bản thành giọng nói, các kỹ sư của FPT.AI đã phát triển thành công công nghệ giọng máy AceSound như người thật với nhịp điệu, âm sắc mượt mà, tự nhiên.
Giọng máy và giọng người
Ông Trần Thế Trung – Viện trưởng Viện Nghiên cứu công nghệ FPT, người được xem là kiến trúc sư trưởng của dự án phát triển phiên bản thứ năm giọng máy của FPT.AI kể một ví dụ để chứng minh cho chất lượng giọng máy. “Khi chúng tôi cung cấp giọng đọc này cho các tổng đài, dù đã bắt đầu bằng lời giới thiệu “đây là trợ lý ảo”, nhưng chỉ sau vài ba câu trao đổi, khách hàng có người hỏi lại “Em là người, không phải máy hả?” - ông Trần Thế Trung vừa cười vừa kể lại câu chuyện một cách mãn nguyện. Với người dành nhiều năm để nghiên cứu, cải tiến và tìm kiếm phiên bản giọng nói tự nhiên thì đây là ví dụ điển hình nhất chứng minh cho thành công của ông và cộng sự.
Để làm được điều này, đội ngũ tham gia dự án không chỉ có những kỹ sư máy tính trong các lĩnh vực deep learning, trí tuệ nhân tạo, xử lý ngôn ngữ tự nhiên mà còn có cả các chuyên gia về ngôn ngữ tiếng Việt. Ông Trung giải thích: “Công nghệ xử lý giọng nói đã có lịch sử phát triển hàng chục năm trên thế giới, nhưng đó chỉ là kiến thức chung và được làm tốt ở các ngôn ngữ phổ biến như tiếng Anh. Tiếng Việt là bài toán khác. Chúng tôi có sự thừa kế về kỹ thuật, nhưng chỉ là một nửa chặng đường”.
Họ đã đi qua một hành trình dài từ năm 2013 tới nay, trải qua năm phiên bản khác nhau. “Tính trung bình cứ khoảng 1-2 năm, chúng tôi lại ra mắt một phiên bản nâng cấp” – ông Trung nói. Mỗi phiên bản sau lại cải tiến hơn phiên bản trước khiến người nghe cảm nhận được sự khác biệt rõ rệt. Để làm được điều đó, đội ngũ phát triển đã thực hiện hàng nghìn những thí nghiệm. Nếu truy cập vào website của FPT.AI để nghe các giọng nói điển hình mà đơn vị này đang cung cấp, chắc hẳn nhiều người sẽ nhận ra nhiều giọng nói quen thuộc thường xuất hiện trong các clip nhận xét phim, postcard….Một cách chi tiết hơn đó là giọng nữ miền Bắc Ban Mai, giọng nữ miền Bắc Thu Minh, giọng nữ miền Nam Linh San, giọng nam miền Nam Minh Quang,… Mỗi giọng đúng như định danh lại có một sắc thái riêng.
Để xây dựng được những giọng nói như thế, nhóm phát triển ngoài việc dựa trên lý thuyết nền tảng với các thuật toán chung còn nghiên cứu và tìm kiếm chất giọng chuẩn của phát thanh viên và nghiên cứu về nhịp điệu, cách nhấn nhá, ngắt nghỉ, thậm chí là cách vuốt âm cuối trong câu, lên cao, xuống thấp từng từ rồi xây dựng các bộ thông số riêng cho từng phong cách. “Thực tế những cái đó chúng ta đều cảm thụ được hết nhưng chưa có ai tri thức hóa thành văn bản, đưa ra thông số cụ thể và chúng tôi làm điều đó. Khác biệt lớn nhất giữa chất giọng tự nhiên và không tự nhiên nằm ở nhịp điệu, cảm xúc trong cách nói, tốc độ đọc không đều, có sự ngẫu nhiên, và thường ngắt nghỉ theo ngữ nghĩa văn bản, chất lượng âm thanh trong, không đục. Giọng máy công nghệ AceSound có thể nói là tiệm cận với chất lượng của phát thanh viên trong đài truyền hình, đài phát thanh” – ông Trần Thế Trung giải thích.
Trong quá trình làm việc, đội ngũ kỹ sư phát triển đã dành hàng nghìn giờ để ngồi nghe, thẩm thấu từng chất giọng và cảm thụ được sự khác biệt trong giọng của từng phát thanh viên. Đơn cử như giọng nữ miền Bắc cũng có nhiều phong cách khác nhau, người cương quyết, mạnh dạn thì cách nói đều đều, rắn chắc, âm tiết ngắn, có âm sắc đanh. Với người điệu thì giọng lại uyển chuyển, mềm mỏng, hơi mướt, có chút điệu, âm sắc sẽ nghiêng về trẻ con, tốc độ đọc chậm, thường vuốt dài ở âm tiết cuối cùng trong câu… Tất cả những sự tỉ mỉ đó cho thấy, để tìm ra được 10 bộ thông chuẩn cung cấp cho khách hàng, đội ngũ phát triển của FPT.AI đã làm việc chi tiết tới mức nào. Không chỉ nằm ở công nghệ, điều này còn nằm ở cả sự tinh tế, kinh nghiệm và sự linh hoạt của nhóm phát triển.
Bên cạnh hàng nghìn những thí nghiệm được thực hiện để điều chỉnh từng thông số về cao độ, sắc độ, nhịp điệu hay tốc độ, giọng nói…, nhóm thậm chí cũng phải “cắn răng ’đập đi’ những thuật toán không phù hợp để thiết kế cái mới”. Ông Trung giải thích, “nếu chỉ dùng kiến thức chung về tổng hợp giọng nói trên thế giới sẽ chỉ đạt tới một ngưỡng nhất định. Để áp dụng cho tiếng Việt, chúng tôi phải đưa vào kiến thức ngôn ngữ tiếng Việt, thay đổi về cao độ, tốc độ, cách phát âm, khả năng ngắt nghỉ… thậm chí thiết kế lại quy trình, chi tiết từng bước cho phù hợp với hạ tầng, dữ liệu để giọng máy AceSound trở nên mượt mà, sống động hơn. Bởi dữ liệu trên thế đang được làm cho tiếng Anh trong khi tiếng Việt lại có cách ngắt nghỉ nhấn nhá khác hoàn toàn”.
Những ứng dụng đa dạng trong cuộc sống
Kể từ khi được ra mắt, AceSound đã được cung cấp cho nhiều khách hàng, từ các tổng đài chăm sóc khách hàng, chatbot, trợ lý ảo, cho đến các đơn vị sản xuất nội dung số như video, podcast, sách nói, ebook. “Khách hàng đang quen sử dụng phiên bản thứ tư, nhưng đến khi nghe phiên bản thứ năm, họ đã nhận ngay ra sự mượt mà trong cách đọc mới và lập tức ưa thích nó” – ông Trung nói.
Để có được sự thay đổi này, ông Trung nói rằng, bên cạnh những bộ thông số điều chỉnh giọng được ví như bí quyết điều chế của Coca Cola thì chất lượng dữ liệu cũng đóng vai trò quyết định. Quá trình nghiên cứu hàng chục năm giúp họ nhận ra, cần xây dựng tiêu chuẩn cho dữ liệu. Ông Trung giải thích: “Nếu như trước kia dữ liệu có thể lấy từ một bạn bất kỳ, tranh thủ ngồi thu âm cho máy học thì sau này khi phát triển Acesound, tôi thấy rằng dữ liệu được chuẩn hóa cho đầu ra khác hẳn”.
Việc tạo ra sức ép về thời gian khiến giọng đọc không ổn định bởi khi khỏe mạnh người ta đọc kiểu khác, khi mệt mỏi lại đọc kiểu khác. Vì thế một trong những khía cạnh cần đảm bảo với người thu âm là sức khỏe ổn định. Mỗi người mỗi ngày không đọc quá nhiều, chỉ đọc 1-2 tiếng.
Với những người làm AceSound, xây dựng dữ liệu giờ là cuộc đua marathon, có thể phải mất vài tháng mới đủ dữ liệu đảm bảo chất lượng. Thậm chí có khi vài tháng sau khi hoàn thành họ vẫn yêu cầu người thu âm đọc bổ sung thêm từng đoạn dữ liệu về ngữ âm, nhịp điệu. Bởi thế, khi cung cấp phiên bản thứ 5 cho khách hàng, AceSound đã khiến họ có một trải nghiệm hoàn toàn khác biệt. Một trong những ứng dụng nổi bật của AceSound là tích hợp vào trợ lý ảo tổng đài chăm sóc khách hàng tự động. Bằng công nghệ “hệ suy luận”, trợ lý ảo có thể trao đổi một cách tự nhiên với khách hàng bằng cách đặt câu hỏi để khu trú và tìm ra câu trả lời phù hợp. Đơn cử trong như trong làn sóng dịch thứ tư vừa qua, trợ lý ảo tổng đài chăm sóc khách hàng tự động đã được đưa vào tổng đài 1022, thực hiện hàng trăm ngàn cuộc điện thoại mỗi ngày tới các F0, F1, F2, ở TP.HCM để hỏi thăm tình hình sức khỏe, hướng dẫn cách ly đưa ra hướng dẫn tùy theo câu trả lời của khách hàng và cập nhật theo thời gian thực thông tin người bệnh cho cơ quan chức năng.
Bên cạnh những doanh nghiệp lớn, AceSound cũng được nhiều khách hàng cá nhân sử dụng với mục đích đa dạng, sáng tạo mà nói như ông Trần Thế Trung là “không bao giờ nghĩ đến”. Trường hợp đặc biệt nhất là AceSound được ứng dụng để đọc các bài cúng. “Tôi cũng không ngờ những người làm tín ngưỡng lại cập nhật công nghệ đến vậy. Nhưng nó cho thấy sức sáng tạo của người dùng. Đây là điểm thú vị khi một sản phẩm được mở ra cho người dùng trải nghiệm” – ông Trung nói và tin rằng, việc FPT.AI cởi mở trong việc chia sẻ các công nghệ sẽ góp phần xây dựng hệ sinh thái sáng tạo cho cả cộng đồng.
Người lĩnh xướng công nghệ AceSound cho biết, trong tương lai họ vẫn còn nhiều việc phải làm. Họ đã nhận được nhiều các yêu cầu khó ví như hệ thống không chỉ đọc nhuần nhuyễn hay như người mà còn có thể hát được hoặc có thể nói được nhiều ngôn ngữ hơn hoặc một giọng đọc có thể vừa đọc thời sự vừa đọc … truyện chưởng. “Giờ đây người dùng có thể thoải mái sáng tạo và thử nghiệm với các bộ thông số chúng tôi cung cấp và tự do điều chỉnh tốc độ nhịp điệu. Họ sẽ ngày càng yêu cầu cao hơn, nhất là đi sâu để giải quyết bài toán cho từng lĩnh vực như ngân hàng, bảo hiểm và sản xuất nội dung sáng tạo trực tuyến… Chúng tôi biết mình sẽ còn nhiều việc phải làm trong thời gian tới để đáp ứng trí tưởng tượng vô biên của khách hàng” – ông Trung quả quyết.