Kho lưu trữ sách mở lớn nhất thế giới đã biến hàng ngàn đầu sách của mình thành sách nói chỉ sau một đêm nhờ sử dụng giọng nói tổng hợp của trí tuệ nhân tạo (AI). Những file sách nói này có thể tải xuống miễn phí hoặc phát trực tuyến trên nhiều nền tảng.

Hơn 5.000 cuốn sách thuộc phạm vi công cộng của Dự án Gutenberg đã được chuyển thành sách nói. Ảnh minh họa: Istock
Dự án Gutenberg đã chuyển hơn 5.000 cuốn sách thuộc phạm vi công cộng của mình thành sách nói. Ảnh minh họa: Istock

Thông thường, làm một cuốn sách nói mất khá nhiều thời gian và công sức. Người đọc nó cũng phải được trả tiền. Đối với nhiều đầu sách, việc sản xuất một cuốn sách nói không có lợi ích gì về mặt tài chính, nghĩa là có rất nhiều đầu sách cũ và khó đọc sẽ không có phiên bản sách nói cho những người muốn nghe.

Là một kho lưu trữ sách mở, Dự án Gutenberg dĩ nhiên muốn những tài liệu thuộc phạm vi công cộng của mình tồn tại ở càng nhiều định dạng càng tốt. Lấp đầy khoảng trống sách nói có lẽ cũng nằm trong danh sách những việc cần làm của họ trong nhiều năm. Nhưng phải đến năm nay, khi bắt tay hợp tác với MIT và Microsoft, Dự án Gutenberg mới có thể thực hiện “phép màu” cần thiết để đưa những cuốn sách này vào cuộc sống thông qua giọng nói do AI tạo ra.

Sàng lọc sách

Vấn đề với kho lưu trữ của Dự án Gutenberg là các tệp sách của họ không được định dạng thống nhất. Chúng đến từ nhiều nguồn khác nhau, trong đó có sử dụng phần mềm nhận dạng ký tự quang học (OCR) để chuyển đổi hình ảnh thành văn bản. Trong quá trình này, sẽ có những ký tự nhận dạng bị lỗi và các tình nguyện viên phải biên tập, chỉnh sửa, nhưng không phải lúc nào công việc của họ cũng hoàn hảo. Ngay cả khi chúng rất tốt thì định dạng của văn bản sách không phải lúc nào cũng dễ dàng cho máy đọc: ví dụ bị ngắt ở số trang, chú thích hoặc nhiều chi tiết nhỏ nhặt khác.

"Mỗi cuốn sách điện tử trong Dự án Gutenberg đều có định dạng html riêng với rất nhiều đoạn văn bản chúng ta không muốn nghe đọc thành lời như bảng biểu, mục lục, chỉ mục, số trang v.v. Phần khó nhất của dự án sách nói là trích xuất tốt phần văn bản để đọc lên”, Mark Hamilton, người đồng dẫn dắt dự án hợp tác với Microsoft và MIT, giải thích.

Để giải quyết vấn đề này, họ đã thiết kế một hệ thống phần mềm rà soát toàn bộ kho lưu trữ và xác định các tệp sách được định dạng tương tự, sau đó tìm ra cụm nào trong số đó phù hợp nhất để tự động đọc.

Phân loại các cuốn sách trong thư mục của Dự án Gutenberg theo cụm. Ảnh: PG
Phân loại các cuốn sách trong thư mục của Dự án Gutenberg theo cụm. Ảnh: PG

Đợt rà soát đầu tiên này có một chút thú vị: ví dụ, chỉ có một cuốn sách của Dickens (cuốn sách còn dang dở "Bí ẩn của Edwin Drood") là phù hợp, nhưng có tới một tá các cuốn sách dạng như “Ghi chú và truy vấn, Số xx, Ngày xx: Một phương tiện giao tiếp cho những nhà văn học, nghệ sĩ, sưu tầm đồ cổ, phả hệ v.v”

"Chúng tôi chọn sách cho đợt đầu tiên dựa trên những gì chúng tôi cảm thấy trình phân tích cú pháp tự động có thể làm tốt," Hamilton nói. "Tuy nhiên, một số cuốn sách quan trọng đã bị loại. Giờ chúng tôi đã có lô sách nói đầu tiên. Chúng tôi sẽ tiếp tục làm việc để khái quát hóa hệ thống, tiến gần hơn đến mục tiêu làm hết 60 nghìn cuốn sách trong tương lai.”

Giọng đọc cảm xúc

Đối với bản thân việc đọc sách, nhóm dự án đã tập hợp nhiều công cụ học máy và giọng nói tổng hợp dễ tiếp cận. Vài năm trước, người ta dự báo rằng những công cụ như vậy sẽ giúp cho việc sản xuất sách nói tự động xuất hiện trên quy mô lớn.

Dự án Gutenberg mô tả cách tiếp cận để tạo ra một cuốn sách nói hấp dẫn như sau:

“Chúng tôi sử dụng một hệ thống suy luận cảm xúc và loa tự động để thay đổi giọng nói và giọng đọc theo ngữ cảnh. Điều này khiến cho các đoạn văn có nhiều nhân vật và đối thoại cảm xúc trở nên sống động và hấp dẫn hơn.

Để làm được như thế, trước tiên chúng tôi phân đoạn văn bản thành tường thuật và hội thoại, rồi xác định nhân vật nói cho mỗi đoạn hội thoại. Sau đó, chúng tôi dự đoán cảm xúc của mỗi cuộc hội thoại bằng cách sử dụng một hệ thống học tự giám sát. Cuối cùng, chúng tôi gán giọng nói và cảm xúc riêng biệt cho người kể chuyện và các nhân vật trong đối thoại bằng cách sử dụng mô hình chuyển văn bản thành giọng nói đa phong cách và dựa trên ngữ cảnh.”

Công chúng có thể tìm nghe khoảng 5.000 cuốn sách nói đầu tiên bằng tiếng Anh trên Spotify, Apple Podcasts và Internet Archive. Phần mềm mã nguồn mở để tạo ra những cuốn sách này cũng được chia sẻ rộng rãi trên GitHub.