Một câu nói bình thường của chúng ta có thể hàm chứa rất nhiều yếu tố: ý định nhờ vả, sự than phiền, cơn bực tức, niềm hân hoan. Làm thế nào một hệ thống máy tính có thể nhận biết tất cả những yếu tố đó và tìm ra phương thức hồi đáp, xoa dịu hiệu quả?

“G7 xin nghe, chúng tôi có thể giúp gì cho quý khách?”

“Chào em, anh muốn đặt xe”

“Dạ đón mình ở địa chỉ nào ạ?

“Đón anh ở số X Lý Thường Kiệt”.

“Dạ địa chỉ mình ở quận Hà Đông hay quận Hoàn Kiếm ạ?”...

Lắng nghe cuộc gọi với những lời hỏi đáp qua lại, rất khó để chúng ta nhận ra tổng đài viên đang trao đổi là người máy. Bản thân anh Trung - khách đặt xe - cũng phải thốt lên “Tôi cảm thấy như đang nói chuyện với người thật chứ không phải với callbot!”

Việc các doanh nghiệp ghi âm lời chào hay hướng dẫn khách hàng thực hiện thao tác như “Ấn phím 1 để nghe các chương trình ưu đãi”, “Ấn phím 2 để khiếu nại” không phải là một việc xa lạ trên thế giới. Tuy nhiên, đó vẫn chỉ là những đoạn băng bật sẵn mang tính chất phân loại người dùng, công việc giải đáp các câu hỏi của khách hàng vẫn cần phải nhờ đến sự có mặt của người thật. Dù vậy không phải lúc nào tổng đài viên cũng có thể hồi đáp mọi cuộc gọi, nhất là vào thời gian cao điểm, số lượng cuộc gọi quá nhiều. Điều này không chỉ khiến khách hàng mất kiên nhẫn vì chờ đợi, mà bản thân tổng đài viên cũng căng thẳng và quá tải. Tỷ lệ nhân viên trực tổng đài nghỉ việc lên đến gần 30% mỗi năm (Theo 2016-2017 US Contact Center HR & Operational Benchmarking Report).

Người lái xe đang điều khiển trợ lý ảo ViVi tắt đèn trong phòng khách nhà mình.

Vì lẽ đó, callbot đã ra đời với độ linh hoạt cao hơn nhiều so với những đoạn băng ghi âm sẵn. Đó là một tổng đài AI “ảo”, cho phép thực hiện và tiếp nhận các cuộc gọi tùy theo nhu cầu của doanh nghiệp, phân loại, xử lý yêu cầu. Người dùng có thể trao đổi với callbot như một cuộc đàm thoại thực sự, kéo dài khoảng một phút đến hai phút, thậm chí là nhiều hơn.

Tổng đài viên đã tương tác với anh Trung khi đặt xe chính là một loại callbot như thế. Cụ thể, trợ lý ảo kênh tổng đài VinBase Callbot do Công ty Cổ phần VinBigData (Vingroup) phát triển có thể giao tiếp bằng bốn giọng thoại nam - nữ miền Bắc và nam - nữ miền Nam; có thể tiếp nhận các cuộc gọi đến và tư vấn, hỗ trợ, giải đáp thắc mắc hay tiếp nhận phản hồi từ khách hàng. VinBigData cho biết sản phẩm này giúp giải quyết hơn 80% các cuộc gọi chăm sóc khách hàng tự động mà không cần sự trợ giúp của con người.

Đáng chú ý, từ giọng nói của người gọi, VinBase Callbot chỉ mất 5 giây để nhận dạng khách hàng này đã từng gọi đến hay chưa, họ đang có cảm xúc gì - vui vẻ hay tức giận, họ có yêu cầu gì. Trong hệ thống có rất nhiều kịch bản đã được chuẩn bị sẵn tùy theo câu hỏi và cảm xúc của người gọi đến. “Sau khi phân tích quan điểm và cảm xúc khách hàng, callbot có thể điều hướng, chọn ra kịch bản để giải đáp, thậm chí là xoa dịu khách hàng”, TS. Nguyễn Kim Anh (Giám đốc Trung tâm Công nghệ Trợ lý ảo, VinBigData) cho hay. Nói cách khác, các cuộc gọi đã được cá nhân hóa nội dung.

Bên cạnh VinBase Callbot hoạt động thông qua các cuộc gọi, VinBigData còn phát triển thêm sản phẩm VinBase Chatbot hoạt động qua trao đổi bằng văn bản. Cũng tương tự như những cuộc gọi tự động, khi truy cập vào một website, bạn gửi tin nhắn tìm hiểu thông tin và nhận được lời hồi đáp ngay lập tức. Những tin nhắn như vậy thường do chatbot - một chương trình máy tính thực hiện một cuộc trò chuyện thông qua việc tiếp nhận thông tin bằng văn bản - thực hiện. Chatbot được thiết kế để tiếp nhận và xử lý yêu cầu của người dùng, sau đó đưa ra câu trả lời trong thời gian thực. “Khác với các chatbot khác chỉ hoạt động dựa trên các từ khóa và quy định đơn giản, VinBase chatbot có thể hiểu và tương tác với khách hàng dựa trên ngữ cảnh”, TS. Nguyễn Kim Anh tự tin chia sẻ về sản phẩm của nhóm mình.


Tương tự với hai sản phẩm này, VinBigData đã phát triển thêm trợ lý ảo VinBase với tên gọi ViVi - một trợ lý ảo dành riêng cho người Việt trong các tác vụ điều khiển xe thông minh, điều khiển nhà thông minh, chuyển khoản bằng giọng nói, cung cấp thông tin tiện ích tại khu đô thị thông minh v.v. Vậy ViVi có gì khác với Google Assistant, Siri - những trợ lý ảo phổ biến với đa dạng tính năng? Theo VinBigData, việc am hiểu văn hóa vùng miền, nhận tiếng Việt theo vùng sẽ là ưu điểm của ViVi so với các sản phẩm khác trên thị trường. Các trợ lý ảo nổi tiếng trên thế giới đều chưa chính thức hỗ trợ tiếng Việt.

Làm chủ công nghệ

Lắng nghe giọng hoặc đọc tin nhắn của người đối diện, đoán biết ý định của họ, phân tích thái độ của họ để từ đó đưa ra được hành động phù hợp - chuỗi hành động này quá đỗi phức tạp đối với ngay cả con người, huống gì là người máy. Làm thế nào để chỉ từ một câu nói, chẳng hạn như “Sao đến tận bây giờ mà tôi vẫn chưa khóa được thẻ???”, máy tính có thể nhận ra được sự mất kiên nhẫn, bực tức của người dùng - đó là chưa kể trong một câu có thể hàm chứa rất nhiều yêu cầu, thắc mắc?

Chìa khóa để VinBigData phát triển ba sản phẩm VinBase Chatbot, VinBase Callbot và ViVi của mình chính là ở công nghệ xử lý ngôn ngữ tự nhiên NLP (Natural language processing). Xử lý ngôn ngữ tự nhiên là lĩnh vực nghiên cứu ứng dụng liên quan đến trí tuệ nhân tạo, với nhiệm vụ cung cấp các khả năng để máy tính có thể hiểu, nghe và diễn đạt ngôn ngữ của con người, từ đó, giúp con người thực hiện các tác vụ nhất định thông qua một số hình thức khác nhau như tiếng nói và chữ viết.

Ví dụ, sau khi khách hàng đưa ra truy vấn “Tôi muốn thêm đá vào cốc cà phê lúc nãy tôi đặt”, AI sẽ hiểu được tiếng nói của người khách thông qua công nghệ tự động nhận dạng giọng nói giúp chuyển tiếng nói thành văn bản. Từ đó, hệ thống diễn giải, phân tích cảm xúc và ý định đằng sau truy vấn (Khách muốn thêm đá lạnh, nhưng vào cốc cà phê đã đặt từ lúc nãy chứ không phải cốc đang đặt). Các hệ thống tiên tiến thậm chí có thể hiểu được nội dung những câu thoại không tuân thủ nguyên tắc ngữ pháp hoặc khi người dùng nói tắt.

Dựa trên ý định của khách, học máy sẽ tạo ra phản hồi phù hợp dựa trên những kịch bản đã có (Nên trả lời với nội dung như thế nào, nếu khách đang bực tức thì không nên dùng giọng hân hoan để đáp lại). Theo thời gian, phản hồi của máy sẽ ngày một tốt lên, bằng cách học hỏi các biến thể khác nhau của cùng một truy vấn, một mục đích. Sau khi tổng hợp tất cả thông tin này, máy tạo ra phản hồi dựa trên công nghệ tạo ngôn ngữ tự nhiên. Cuối cùng, với công nghệ chuyển văn bản thành giọng nói, tổng đài viên sẽ trò chuyện, giao tiếp tự nhiên với con người.

Nỗ lực phát triển các bước từ đầu đến cuối đã giúp VinBigData làm chủ được công nghệ lõi đằng sau các sản phẩm Callbot và Chatbot. “Chúng tôi xem công nghệ lõi như nền móng của một ngôi nhà, nền móng này sâu và vững chắc thế nào sẽ quyết định ngôi nhà này cao hay rộng bao nhiêu”, TS. Nguyễn Kim Anh đề cập đến “chìa khóa” đằng sau các thao tác tinh vi của những sản phẩm trong hệ sinh thái VinBase.

Đó cũng là điều mà GS. Vũ Hà Văn (Giám đốc khoa học, Phó chủ tịch công ty cổ phần VinBigData) đã xác định ngay từ ngày đầu ấp ủ nên những công nghệ này. “Cách đây hơn bốn năm, khi tôi bắt đầu công việc của mình tại VinBigData, nhiều người khuyên tôi nên mua công nghệ của nước ngoài mang về, sau đó hoàn thiện nốt 10-15% phần lại cho nhanh”. Theo ông, đó không phải là ý dở về mặt thương mại nhưng như vậy có nghĩa là chấp nhận ngồi nhìn doanh nghiệp nước ngoài khai thác nguồn tài nguyên dữ liệu dồi dào của Việt Nam. Thế nên ông quyết định chọn cách làm thách thức hơn - tự phát triển công nghệ của người Việt. “Khi có sản phẩm của mình rồi thì không còn phải sợ các đối thủ nước ngoài nữa,” ông kết luận.

Từ những công nghệ đã phát triển, VinBigData đã cho ra mắt giao diện API, giúp doanh nghiệp dễ dàng tạo lập, tùy chỉnh, thiết kế cho riêng mình các sản phẩm liên quan đến các công nghệ xử lý tiếng nói và ngôn ngữ, gồm nhận dạng tiếng nói tự động (ASR); tổng hợp giọng nói (TTS); xử lý ngôn ngữ tự nhiên (NLP); công nghệ sinh trắc học giọng nói (Voice Biometrics); công nghệ phân tích quan điểm (Sentiment Analysis); công nghệ khử nhiễu; công nghệ chuyển đổi giọng nói.

Mỗi doanh nghiệp trong mỗi lĩnh vực lại có những nhu cầu khác nhau, giao diện API sẽ giúp họ thiết lập được cho riêng mình một sản phẩm phù hợp. Chẳng hạn, các tổ chức tài chính - ngân hàng sẽ đặc biệt quan tâm đến công nghệ sinh trắc học giọng nói, nó hỗ trợ nhận dạng và phân biệt cá nhân thông qua giọng nói. Các ngân hàng có thể sử dụng công nghệ này như một “tấm khiên” mới bên cạnh các giải pháp bảo mật truyền thống như mật khẩu, SMS OTP hay câu hỏi bí mật.

“Kho báu” dữ liệu

Một trong những câu nói được đội ngũ VinBigData lặp lại nhiều lần khi đề cập đến VinBase, đó là “đây là nền tảng dành cho người Việt”. Nền tảng này có điểm gì đặc biệt để họ tự tin rằng nó có thể đánh bại những trợ lý ảo nổi tiếng như Siri, Google Assistant hay Amazon Alexa tại thị trường Việt Nam? Câu trả lời nằm ở chính chia sẻ của GS. Vũ Hà Văn trong buổi lễ ra mắt: “Để bắt kịp chuyến tàu 4.0, các công ty công nghệ non trẻ của Việt Nam về cơ bản chỉ cần có hai yếu tố: nhân lực và dữ liệu - nhân lực được đào tạo đủ tốt và dữ liệu của chính chúng ta”.

“Dữ liệu của chính chúng ta”. Để các tổng đài viên hay trợ lý ảo của VinBase có thể hiểu được những gì người Việt đang nói, các kỹ sư đã huấn luyện AI bằng nguồn dữ liệu lên tới hơn 30.000 giờ giọng nói đặc trưng của người Việt. Về cơ bản, trợ lý ảo Vivi có thể hiểu được tiếng Việt bất kể vùng miền. Chẳng hạn, cùng một nội dung tìm kiếm cây ATM gần nhất, khách hàng có thể hỏi “Có cây ATM nào gần đây không?”, “ATM gần nhất ở mô rứa?”.

Cùng với việc hiểu câu hỏi của người dùng, các trợ lý ảo còn có nền tảng tri thức ở hơn 100 ngành nghề khác nhau. Theo VinBigData, độ chính xác của ViVi trong các câu trả lời với nhiều chủ đề khác nhau đạt 80%.

Cơ sở dữ liệu còn đóng vai trò quan trọng trong những trường hợp khi nhiều người cùng trò chuyện trong một không gian, khách hàng đang gọi đến ở một khu vực có nhiều tiếng ồn. Về cơ bản, hệ thống cần học được các loại “nhiễu” để gia tăng tính chính xác trong nhận dạng giọng nói. Đội ngũ phát triển sẽ ghi âm lại giọng nói trong chính môi trường của người dùng nhằm cung cấp dữ liệu đào tạo cho mô hình AI. Dữ liệu tiếng ồn được bổ sung phải đảm bảo tính đại diện cho môi trường thực tế và bao gồm một loạt các biến thể ngữ âm. Nếu chỉ chọn một loại tiếng ồn cụ thể, mô hình có thể sẽ hoạt động rất tốt khi có tiếng ồn này, nhưng không thể nhận dạng và lọc các loại nhiễu khác.

Bất chấp những ưu điểm của các hệ thống này trong bối cảnh rất nhiều công ty trên thế giới đang lần lượt cho ra đời hệ thống chatbot, callbot, trợ lý ảo - đặc biệt là sự kiện OpenAI vừa cho ra mắt ChatGPT vào tháng 11 vừa qua, nhiều người không khỏi nghi ngại về tính chính xác của các nội dung do các hệ thống cung cấp, cũng như liệu nó sẽ mang lại những phiền phức gì cho cuộc sống của chúng ta. Chẳng hạn, VinBase Callbot có thể thực hiện hàng nghìn cuộc gọi cùng lúc đến khách hàng để giới thiệu sản phẩm, dịch vụ; truyền tải thông tin khuyến mãi; nhắc nhở, theo dõi thanh toán. Những người vốn cảm thấy khó chịu với các cuộc gọi quảng cáo sẽ cảm thấy như thế nào nếu một Callbot gọi đến để tiếp thị sản phẩm?

Đó là một trong số rất nhiều câu hỏi mà VinBigData sẽ phải giải quyết trong quá trình hoàn thiện hệ thống của mình. Hiện tại, VinBigData cho biết họ vẫn đang tiếp tục huấn luyện AI bằng cơ sở dữ liệu đặc trưng cho người Việt để cải thiện tính chính xác của các hệ thống. Sẽ còn rất nhiều việc phải làm, và bản thân GS. Vũ Hà Văn cho biết mình cũng đã tiên liệu được trước những sai sót có thể xảy đến: “Những sản phẩm này VinbigData mới chỉ bắt đầu phát triển cách đây một năm rưỡi; cũng giống như những sản phẩm phần mềm khác trên thế giới, nó sẽ có lỗi và có thể khiến chúng ta ‘phát điên’ lên”. Dù vậy theo ông, những lỗi đó là điều cần thiết để VinBigData có thể nhận ra các sai sót cần sửa đổi, từ đó mang đến một sản phẩm hoàn thiện hơn.