Năm 2015, chiếc loa thông minh Alexa lần đầu tiên được Amazon bán ra thị trường và ngay lập tức họ nhận được 2 triệu đơn đặt hàng trên khắp thế giới. Hai năm sau, tức là năm 2017, Amazon tiêu thụ được 30 triệu chiếc loa thông minh.

Với chiếc loa này, người dùng có thể làm được mọi việc họ muốn từ nghe nhạc, nghe hướng dẫn nấu ăn, độc báo, gọi pizza, Uber, Grab hay đi shopping.

VUI là gì?

Giới thiệu về VUI trong Vietnam Mobile Day 2018, anh Lê Ngọc Tuấn – Trưởng ban IoT, Ban công nghệ của Tập đoàn FPT cầm một chiếc loa nhỏ, hình trụ, giống mọi chiếc loa khác và nói rằng: “Chào Alexa”. Ngay lập tức, Alexa trả lời lại anh Tuấn bằng giọng nữ, với cả tiếng Việt và Tiếng Anh: “Xin chào, tôi là Alexa. Tôi có thể chơi nhạc, mua hàng, nói chuyện, đọc sách và làm nhiều ứng dụng khác”. Giọng nói của Alexa được hình thành nhờ công nghệ tổng hợp giọng. Việc nghe và trả lời của Alexa được hình thành nhờ các công nghệ điển hình của AI như text to speech (chuyển văn bản thành giọng nói) và speech to text (chuyển giọng nói thành văn bản)…

Anh Tuấn cho biết, Alexa là ví dụ điển hình của VUI. VUI là Voice User Interface - Giao tiếp bằng giọng nói. Đây là thời kỳ mà IoT và AI sẽ hòa vào làm một, một chiếc loa “nhìn thì bình thường” nhưng có thể hiểu và thực hiện các lệnh của người dùng.

VUI ra đời khi các thiết bị thông minh và IoT có quá nhiều và bị bão hòa. Một gia đình có khoảng 20 thiết bị thông minh nghĩa là họ phải cài từ 10-20 ứng dụng trên điện thoại và tablet để điều khiển. Ở kỷ nguyên của VUI, các thiết bị sẽ được điều khiển bởi một sản phẩm (điển hình là chiếc loa của Amazon) và cách lập trình của các nhà phát triển phần mềm cũng sẽ thay đổi.

Anh Lê Ngọc Tuấn - Trưởng ban IoT, Ban Công nghệ, Tập đoàn FPT. Ảnh: Lan Anh

“Xu hướng chuyển sang giao tiếp bằng giọng nói đang chuyển dịch rất nhanh trên thế giới, nhưng ở Việt Nam không nhiều người biết đến. Mobile và xu hướng chạm, gõ đang bão hòa, giọng nói lên ngôi. Trong tương lai gần, các kỹ sư phần mềm cũng sẽ lập trình bằng giọng nói chứ không phải gõ như bây giờ” – Anh Tuấn nói thêm.

Thời điểm này, các ông lớn trên thế giới như Google, Amazon, Baidu... đều đã nhảy vào cuộc chơi này để xây dựng các nền tảng platform phục vụ cho sự chuyển dịch này. Sản phẩm điển hình của thời kỳ này sẽ là loa cùng các thiết bị hỗ trợ. Các ứng dụng hiện tại đều được lập trình phục vụ cho giọng nói. Với bộ dữ liệu khổng lồ cùng công nghệ speech to text và text to speech, ngôn ngữ của những cô gái thông minh như Alexa sẽ có thể nghe, hiểu và trả lời tự nhiên như con người.

Anh Lê Ngọc Tuấn cho biết, những chiếc loa như vậy đang được sử dụng phổ biến tại Mỹ. Người ta dùng nó thay thế điện thoại hay bất cứ thiết bị thông minh nào. Chiếc loa có thể chơi nhạc theo yêu cầu, gọi uber khi được yêu cầu, bật/tắt các thiết bị điện trong nhà hoặc thay thế điện thoại liên lạc với mọi người mà không cần sim. Đơn giản và gọn nhẹ, người dùng có thể mang nó đi bất cứ đâu.

2018 là bước ngoặt của VUI

Anh Lê Ngọc Tuấn khẳng định, năm 2018 sẽ là năm chuyển dịch bước ngoặt của giao tiếp giọng nói, giống như cách đây 6 năm, cả thế giới chào đón sự lên ngôi của smartphone. Chu kỳ tiếp theo của công nghệ thế giới sẽ là VUI (Age of VUI – Thời kỳ của giao tiếp bằng giọng nói).

Tất nhiên, không phải bỗng dưng khẳng định này được đưa ra. Một bức tranh tăng trưởng của những chiếc loa đã được dẫn làm bằng chứng. Từ năm 2015 đến nay, số lượng loa của Amazon tiêu thụ đã tăng trưởng chóng mặt. Cụ thể, năm 2015 trong đợt mở bán đầu tiên, 2 triệu chiếc loa đã được đặt hàng. Đến năm 2016, số lượng tiêu thụ tăng lên 10 triệu và tăng lên gấp 3 lần vào năm 2017.

“Theo dự đoán của tôi, năm 2018, số lượng loa tiêu thụ sẽ gấp 3 lần năm 2017. Đặc biệt một nền tảng tương tự Google Home và Amazon, có tên Duer Baidu đến từ Trung Quốc sẽ làm thay đổi cấu trúc thị trường. Các thiết bị của Trung Quốc được sản xuất cực nhanh, cực rẻ sẽ khiến thị trường mở rộng hơn nhanh hơn” – anh Tuấn dự đoán.

Chiếc loa thông minh Alexa là một trong những ví dụ điển hình của kỷ nguyên VUI.

Bên cạnh việc gia tăng về thiết bị, các kho ứng dụng như Google Action và Amazon Skills cũng không thua kém về mặt lớn mạnh. Nếu như năm 2015 khi vừa ra đời, các kho này chỉ có khoảng 10 ứng dụng thì giờ đây con số đã lên tới 30.000. Ngoài các ứng dụng thông thường như đặt lịch, điều khiển thiết bị thông minh, chơi game hay kể chuyện cổ tích, giờ người dùng có thể sử dụng loa để gọi bánh pizza, KFC, hay gọi Uber, Grab…

“Ở thời kỳ của VUI, mọi thứ đều điều khiển bằng giọng nói và hạn chế con người sử dụng điện thoại và tablet” – anh Tuấn nói thêm.

Trong hệ sinh thái mà Amzazon xây dựng trong tương lai, loa trở thành trung tâm, sau đó là các thiết bị, dịch vụ thông minh như Uber, Grab, nghẹ nhạc kể chuyện được kết nối với loa. Thậm chí, Amazon còn đang tạo ra hệ thống thanh toán qua giọng nói. Ví dụ, khi có nhu cầu mua bột giặt, quần áo, khách hàng chỉ cần nói qua loa, mọi chuyện sẽ được tự động thực hiện qua hệ thống thương mại điện tử được kết nối.

Hiện nay, Google Home hay Amazon Skills mới chủ yếu tập trung vào các thị trường nói tiếng Anh và tiếng Nhật. Trong thời gian tới, Amazon sẽ sử dụng phần demo tiếng Việt tích hợp vào Amazon Skills, sử dụng bộ dữ liệu tổng hợp tiếng nói của Ban Công nghệ FPT.

Anh Tuấn nói thêm về những công việc mình đang thực hiện ở FPT: “Nếu không trở tay kịp, đây sẽ là cuộc xâm lăng tiếp theo về công nghệ trong kỷ nguyên 4.0. Và FPT mong muốn cùng các ông lớn khác trong nước tạo ra các nền tảng để bắt kịp chuyến tàu này”.

5 năm qua, FPT đã nghiên cứu và tập hợp các bộ dữ liệu để phục vụ công nghệ nhận dạng giọng nói speech to text và text to speech. Những dữ liệu này được xây dựng thành nền tảng chung cho Age of VUI ở Việt Nam và hỗ trợ cộng đồng startup, doanh nghiệp trong xây dựng hệ sinh thái của riêng mình.

Anh Tuấn không quên nhấn mạnh: “Age of VUI- thời kỳ của giao tiếp giọng nói đang đến rất gần. Thời kỳ này đang chuyển dịch rất nhanh và nếu không nhanh chóng tìm hiểu, sự nhập cuộc của chúng ta sẽ lạc hậu”.