Hãy tưởng tượng nếu thấy một tai nạn giao thông, bạn sẽ gọi ngay đến đường dây nóng của bệnh viện. Tuy nhiên ở đây, thay vì gặp được điều phối viên, bạn lại phải nói chuyện với một bot trả lời tự động để loại bỏ các cuộc gọi không khẩn cấp và nhiều khả năng, bạn phải giải thích nhiều lần và chịu mức căng thẳng gia tăng vào thời điểm khẩn cấp đó.

Ảnh minh họa: Istock
Ảnh minh họa: Istock

Ý nghĩ về một trí tuệ nhân tạo có thể trò chuyện giống như con người đã tồn tại trong trí tưởng tượng của nhiều người kể từ khi bộ phim "Her" của Spike Jonze được công chiếu vào năm 2013. Trong bộ phim này, một người đàn ông đã đem lòng yêu một AI tên là Samantha và phải vật lộn với thực tế rằng, dù có chân thực đến đâu thì Samantha cũng không bao giờ là một con người thực sự.

Hai mươi năm sau, ý tưởng này không còn là khoa học viễn tưởng nữa, những AI tạo sinh như ChatGPT và trợ lý ảo Siri của Apple hay Alexa của Amazon với vô số tiện ích nhưgiúp chỉ đường, lên danh sách mua sắm và nhiều thứ khác… Nhưng cũng như Samantha, các hệ thống nhận diện giọng nói tự động này vẫn không thể làm được tất cả mọi thứ mà con người yêu cầu.

Có lẽ bạn đã từng bực bội khi phải nhắc đi nhắc lại nhiều lần các yêu cầu qua điện thoại để các công cụ dịch vụ khách hàng của các ngân hàng hay công ty dịch vụ có thể hiểu được bạn. Hoặc bạn đã từng ghi lại các lưu ý trên điện thoại, sau đó mất thời gian sửa lại các từ bị sai lệch rồi gửi cho các chatbot.

Các nhà ngôn ngữ học và khoa học máy tính đã chỉ ra rằng, những hệ thống này thường mắc một lỗi là khó nhận biết giọng của một số người hơn giọng của những người khác. Chúng có xu hướng mắc nhiều lỗi hơn trong việc nhận biết giọng địa phương hay giọng không phải bản ngữ, giọng của người da đen, giọng của người sử dụng nhiều ngôn ngữ trong một câu, nếu như bạn là phụ nữ, trẻ em, người già, nói ngọng hoặc mắc chứng rối loạn, suy giảm khả năng nói.

“Tai điếc”

Không giống những con người bình thường như chúng ta, các hệ thống nhận diện giọng nói tự động không phải là “những người nghe biết đồng cảm”. Không có khả năng hiểu người đối thoại qua những tín hiệu hữu ích như ngữ điệu hay nét mặt trong các cuộc giao tiếp thông thường giữa người và người, chúng lại có xu hướng bỏ qua điều đó hoặc phỏng đoán dựa trên xác suất, một hành động dễ đưa đến sai lầm.

Do trên thế giới, các công ty hay các tổ chức công đều đang ứng dụng các hệ thống này ngày một nhiều để cắt giảm chi phí, mọi người không còn sự lựa chọn nào khác là tương tác với các hệ thống AI này. Bên cạnh đó, có một thực tế là những hệ thống này càng được sử dụng nhiều trong các lĩnh vực quan trọng, từ nhân viên ứng cứu khẩn cấp, chăm sóc sức khỏe đến giáo dục, thi hành pháp luật. Do vậy, càng có nhiều khả năng sẽ xảy ra hậu quả nghiêm trọng khi chúng không nhận ra những gì mọi người nói

Hãy tưởng tượng nếu bạn thấy một tai nạn giao thông, bạn sẽ gọi ngay đến đường dây nóng của bệnh viện. Tuy nhiên ở đây, thay vì gặp được điều phối viên, bạn lại phải nói chuyện với một bot trả lời tự động để loại bỏ các cuộc gọi không khẩn cấp và nhiều khả năng, bạn phải giải thích nhiều lần và chịu mức căng thẳng gia tăng vào thời điểm khẩn cấp đó.

Vậy nguyên nhân gì dẫn đến những sai sót như thế? Một số bất bình đẳng xuất phát từ chính dữ liệu mà nhà phát triển sử dụng để xây dựng các mô hình ngôn ngữ lớn. Sau đó, các nhà phát triển huấn luyện các hệ thống trí tuệ nhân tạo để hiểu và bắt chước ngôn ngữ của con người bằng cách cung cấp cho chúng một lượng lớn tệp văn bản và âm thanh chứa giọng nói thực của con người. Nhưng họ đang cung cấp giọng nói của ai cho chúng?

Nếu một hệ thống AI đạt tỷ lệ chính xác cao khi nói chuyện với một người Mỹ da trắng giàu có ở độ tuổi 30 thì có lý khi đoán rằng nó được đào tạo bằng những bản ghi âm thanh của những người này.

Thông qua dữ liệu được kiểm soát nghiêm ngặt từ nhiều nguồn khác nhau, các nhà phát triển AI có thể giảm thiểu những lỗi này. Nhưng để xây dựng các hệ thống AI có thể hiểu được vô số biến khác nhau trong giọng nói của con người như giới tính, tuổi tác, chủng tộc, ngôn ngữ đầu tiên so với ngôn ngữ thứ hai, tình trạng kinh tế xã hội và nhiều thứ khác…, cần nhiều nguồn lực và thời gian đáng kể.

Tiếng Anh “chuẩn”

Với những người không nói tiếng Anh - mà thực tế đó là phần lớn mọi người trên khắp thế giới - những thách thức ấy còn lớn hơn. Hầu hết những hệ thống AI tạo sinh lớn nhất thế giới đều xây dựng trên dữ liệu ngôn ngữ là tiếng Anh, nó sẽ vượt trội khi dùng tiếng Anh so với các ngôn ngữ khác.

Về lý thuyết, AI có tiềm năng ứng dụng trong dịch thuật và làm gia tăng khả năng tiếp cận thông tin bằng nhiều ngôn ngữ khác nhau của mọi người. Tuy nhiên trên thực tế, hầu hết các ngôn ngữ ngoài tiếng Anh đều có ít dữ liệu trên Internet, điều này khiến cho việc phát triển mô hình AI cho các ngôn ngữ này gặp khó khăn. Ngay cả với ngôn ngữ được các mô hình AI hỗ trợ tốt như tiếng Anh và tiếng Tây Ban Nha, trái nghiệm của người dùng cũng phụ thuộc vào thổngữ mà người đó sử dụng.

Hiện nay, người ta đã thấy tồn tại thành kiến ngôn ngữ của những hệ thống AI ghi nhận giọng nói và chatbot AI tạo sinh do xuất phát từ bộ dữ liệu mà chúng được huấn luyện. Chúng lặp lại những quan niệm được xem là quy chuẩn, đôi khi là định kiến về “sự chính xác” trong lời nói.

Trên thực tế, AI đã được chứng minh là đang “làm phẳng” sự đa dạng ngôn ngữ. Có những công ty khởi nghiệp về AI đang cung cấp dịch vụ “xóa giọng”- kỹ thuật biến đổi hoặc loại bỏ kiểu nói hoặc cách phát âm đặc trưng của giọng địa phương hoặc ngôn ngữ địa phương, để tăng cường sự rõ ràng hoặc có được một giọng nói trung tính, “chuẩn” hơn - nhắm tới khách hàng là người cung cấp dịch vụ chăm sóc khách hàng hay trung tâm cuộc gọi ở các nước như Ấn Độ hay Philippines. Những dịch vụ này củng cố thêm các quan niệm vẫn đang tồn tại giữa chúng ta là có những giọng nói kém giá trị hơn một số khác.

Sự kết nối với con người

AI có thể được giả định làsẽ xử lý ngôn ngữ tốt hơn trong tương lai, cả về giọng điệu, chuyển đổi giữa các ngôn ngữ hay những thứ tương tự. Tại Mỹ, theo luật liên bang, dịch vụ công phải đảm bảo cho mọi người dùng được quyền tiếp cận, dù họ sử dụng bất cứ ngôn ngữ nào. Tuy vậy cũng chưa rõ đủ khuyến khích các công ty công nghệ chuyển hướng loại bỏsựbất bình đẳng trong ngôn ngữ hay không.

Nhiều người thích nói chuyện với người thật hơn khi trao đổi về hóa đơn, các vấn đề y tế, hoặc ít nhất là có khả năng lựa chọn không tương tác với hệ thống tự động khi cần các dịch vụ quan trọng. Không hẳn là làm theo cách này sẽ không dẫn đến hiểu lầm trong giao tiếp với nhau nhưng khi bạn nói chuyện với một người thật, họ có thể trở thành một người lắng nghe biết đồng cảm.

Cho đến giờ, với những hệ thống AI thì vẫn chỉ có hai trạng thái là hoạt động hoặc không. Nếu các hệ thống này xử lý được những gì bạn nói, bạn có thể tiếp tục sử dụng các dịch vụ mà nó cung cấp, còn trong trường hợp còn lại, chẳng có cách nào khác là việc bạn đành phải làm thế nào đó để thông điệp của bạn được máy hiểu.

Nguồn: theconversation.com

Bài đăng KH&PT số 1335 (số 11/2025)