Nhóm nghiên cứu do các nhà khoa học tại Đại học Washington dẫn dắt mở ra khả năng người dùng tai nghe có thể lựa chọn âm thanh mà họ muốn nghe trong số 20 loại, chẳng hạn như tiếng còi xe, tiếng trẻ em khóc, tiếng nói chuyện, tiếng máy hút bụi, tiếng chim hót...
Họ đã phát triển các thuật toán học sâu cho phép người dùng chọn loại âm thanh lọt qua tại nghe theo thời gian thực. Nhóm gọi hệ thống này là “nghe ngữ nghĩa” (semantic hearing). Tai nghe truyền âm thanh thu được vào điện thoại thông minh đã kết nối; thông qua câu lệnh giọng nói hay ứng dụng trên điện thoại, người dùng tai nghe có thể lựa chọn loại âm thanh mà họ muốn nghe thấy từ 20 loại, chẳng hạn như tiếng còi xe, tiếng trẻ em khóc, tiếng nói chuyện, tiếng máy hút bụi, tiếng chim hót... Chỉ những âm thanh được chọn mới được truyền qua tai nghe.
Tác giả chính Shyam Gollakota chia sẻ, thách thức lớn là phải đồng bộ âm thanh mà người dùng nghe được với cảm quan thị giác của họ, không thể để âm thanh chậm vài giây so với mắt nhìn. Điều này có nghĩa là các thuật toán thần kinh phải xử lý âm thanh trong chưa đến 1/100 giây.
Do thời gian gấp rút như vậy, hệ thống nghe ngữ nghĩa phải xử lý âm thanh dựa trên một thiết bị chẳng hạn như điện thoại thông minh được kết nối, thay vì trên các máy chủ đám mây mạnh mẽ hơn. Ngoài ra, bởi vì âm thanh đến tai người từ các hướng khác nhau và vào các thời điểm khác nhau, hệ thống phải bảo tồn được những khoảng trễ này và các tín hiệu không gian khác để người sử dụng có thể tiếp nhận âm thanh một cách ý nghĩa trong môi trường của mình.
Hệ thống này đã chạy thử nghiệm trong các môi trường như văn phòng, đường phố và bãi đỗ xe. Nó có thể trích xuất tiếng còi xe, tiếng chim hót, báo thức và những âm thanh mục tiêu khác, trong khi loại bỏ mọi tiếng ồn khác trong thế giới thực. 22 người được mời tham gia đánh giá đầu ra âm thanh của hệ thống này đối với âm thanh mục tiêu và họ nói rằng xét trung bình, chất lượng được cải thiện so với bản ghi âm gốc.
Trong một số trường hợp, hệ thống gặp khó khăn trong việc phân biệt các âm thanh có cùng nhiều tính chất, chẳng như tiếng nhạc có lời và tiếng nói của con người. Các nhà nghiên cứu lưu ý rằng việc đào tạo thêm các mô hình bằng dữ liệu thế giới thực có thể cải thiện kết quả.
Trong tương lai, nhóm nghiên cứu dự định đưa ra một phiên bản thương mại của hệ thống này.
Nguồn:
Hiếu Ngân