Nhóm nghiên cứu của TS. Nguyễn Văn Phúc tại Đại học Texas ở Arlington và TS. Jian Liu tại Đại học Tennessee đang phát triển một thiết bị công nghệ đeo tai nhỏ gọn, cho phép người dùng thực tế ảo (VR) biểu hiện cảm xúc gương mặt y như thật mà không cần đến camera.
Thiết bị đọc cảm xúc dựa vào điện cơ
Hãy tưởng tượng bạn bước chân vào một phòng họp ảo, tại đó mọi người tham gia cuộc họp có thể “quan sát” avatar - hình ảnh đại diện của bạn - với những biểu cảm hệt như trên khuôn mặt bạn một cách hoàn hảo. Khi bạn mỉm cười, nháy mắt, nhếch môi hoặc cau mày giận dữ, avatar của bạn cũng thể hiện chính xác những sắc thái đó.
Việc “nhìn thấy” biểu cảm của nhau trong phòng học ảo khiến mọi người đều cảm thấy cuộc họp diễn ra thật tự nhiên. Có vẻ như một bộ phim khoa học viễn tưởng nhưng nhờ những bước tiến mới của công nghệ mà điều này đang trở thành hiện thực.
Những công ty công nghệ lớn như Apple, Google, Microsoft, Meta cùng nhiều startup đang chạy đua để phát triển những thiết bị VR có khả năng tái tạo cảm xúc gương mặt theo cách như vậy. Họ muốn đem thế giới ảo gần hơn với những gì con người trải nghiệm trong đời thực, kể cả cảm xúc. Tuy nhiên, bất chấp những nỗ lực này, thiết bị VR ngày nay vẫn cồng kềnh và che khuất hầu hết khuôn mặt của người dùng.
“Thông thường, máy ảnh là cách trực quan nhất để thu thập thông tin khuôn mặt, tuy nhiên chúng cũng có một số hạn chế. Thứ nhất, khi dùng camera, các phần của khuôn mặt phải luôn ở trong tầm ngắm ống kính và không bị che khuất bởi vật cản. Các thiết kế tai nghe headphone VR hiện nay đang che gần nửa khuôn mặt, do vậy khó đáp ứng điều này. Thứ hai, việc xử lý hình ảnh từ camera cũng tốn rất nhiều năng lượng và hiệu năng tính toán, chính vì thế các nhà phát triển phải tìm cách giảm số lượng hình ảnh cần xử lý. Và thứ ba, người dùng ngày càng lo ngại đến quyền riêng tư cá nhân và không muốn gương mặt của mình bị ghi lại liên tục, do vậy cần phải có những cách tiếp cận thay thế mới mà vẫn đạt được hiệu quả tương tự” TS. Nguyễn Văn Phúc, phó giáo sư ngành khoa học máy tính thuộc Đại học Texas ở Arlington và là Giám đốc phòng thí nghiệm WSSLAB, lý giải.
Để khắc phục những nhược điểm này, nhóm nghiên cứu của anh kết hợp với nhóm nghiên cứu của TS. Jian Liu tại Đại học Tennessee đã phát triển một thiết bị gọn nhẹ và gia tăng độ bảo mật hơn để theo dõi tín hiệu điện cơ (EMG) và dùng thuật toán AI để tái tạo biểu cảm khuôn mặt 3D mang tên BioFace-3D. Đây là thiết bị đầu tiên trên thế giới cho phép người đeo hoàn toàn có thể “nhìn thấy” biểu cảm khuôn mặt 3D của người mà họ đang tương tác mà không cần dùng camera.
Với những lợi thế của mình về các hệ thống không dây và cảm biến, nhóm nghiên cứu của TS. Nguyễn Văn Phúc ở phòng thí nghiệm WSSLAB đã đảm nhận trọng trách thiết kế phần cứng, xây dựng mô hình đại diện 3D và thuật toán thu thập dữ liệu loại bỏ nhiễu cho thiết bị BioFace-3D. Trong khi đó, nhóm nghiên cứu của TS. Jian Liu ở phòng thí nghiệm MoSIS với nhiều kinh nghiệm về các hệ thống thông minh đã phụ trách đào tạo thuật toán AI để biến dữ liệu sinh học thành 53 điểm mốc đại diện cho gương mặt người.
Nhớ lại quá trình nghiên cứu, TS. Phúc cho biết nhóm của anh đảm trách việc làm sao thu đủ tín hiệu sinh học tối thiểu để biến thành kết quả gương mặt tối đa. Anh đã dùng những cảm biến siêu nhạy có thể bắt giữ những tín hiệu mờ nhạt chỉ từ vài microvolt mỗi khi cơ mặt chuyển động. Để so sánh, một cục pin con thỏ chạy đồng hồ treo tường là 1.5 volt, tức gấp khoảng 2-3 triệu lần tín hiệu cơ mặt. Sau khi thu giữ các tín hiệu điện cơ và khuếch đại chúng lên, thiết bị sẽ gửi dữ liệu đến máy tính thông qua Bluetooth để xử lý.
Vấn đề ở chỗ hiện nay trên thế giới chưa có nhiều nghiên cứu về mối quan hệ giữa cử động của các nhóm cơ mặt và cảm xúc, do vậy các thành viên phải dày công xem xét xem đặt cảm biến ở vị trí nào trên gương mặt là hiệu quả nhất. Liệu chúng có cầm nằm ở những vị trí nhạy cảm để thu tín hiệu tốt hơn, hay có thể gắn ở những khu vực ít gây khó chịu? Chúng có nhất thiết phải ở cả hai phía để biết được những cử động khác nhau của gương mặt? Và cần bao nhiêu cảm biến như vậy để tái tạo lại toàn bộ khuôn mẫu?
Sau nhiều lần thử nghiệm, câu trả lời thật bất ngờ. “Chúng tôi đã thử nhiều vị trí xung quanh tai và tính toán các chỉ số phân tích thành phần chính PCA và tín hiệu trên nhiễu SNR tại mỗi vị trí để tìm ra tín hiệu của điểm nào chứa nhiều thông tin nhất. Ban đầu mọi người nghĩ rằng sẽ phải dùng tới 5-6 cảm biến để tái tạo cả khuôn mặt, nhưng rốt cuộc các kết quả tốt đến mức chỉ cần 2 cảm biến ở một bên tai là đủ”, TS. Phúc giải thích.
Vì cảm biến chỉ tập trung ở một bên tai nên BioFace-3D có cấu tạo khá gọn nhẹ và không hề gây vướng víu. Chúng thuận tiện ngay cả khi người dùng chơi các trò chơi VR vận động thể chất hay đi lại trong phòng.
Đào tạo thuật toán AI lý giải cảm xúc
Nhưng thu được tín hiệu điện cơ mới là bước đầu. Mặc dù các tín hiệu sinh học có thể cho biết gương mặt “đang cử động” nhưng nó không có mối liên hệ không gian trực tiếp nào với các “điểm mốc” đặc trưng để vẽ lại toàn bộ gương mặt 3D. Thậm chí, các biểu hiện cảm xúc khác nhau có thể kích hoạt cùng loại nhóm cơ khiến cho việc học mối liên hệ giữa biểu hiện khuôn mặt và tín hiệu cơ là không dễ dàng.
May mắn thay, các nhà nghiên cứu ở hai trường đã tìm ra cách giải quyết bằng phương pháp “bắc cầu” - chuyển các thuật toán AI tái tạo gương mặt bằng hình ảnh video đã có thành thuật toán tái tạo gương mặt bằng tín hiệu điện cơ. Họ đào tạo một mạng thần kinh tích chập CNN dùng dữ liệu video để tạo ra các “bản đồ 2D” thể hiện 53 điểm mốc đại diện cho gương mặt (bao gồm lông mày, mắt, mũi và miệng) làm dữ liệu chuẩn cho mạng CNN dùng dữ liệu cảm biến học theo.
Đồng thời, họ dùng một hàm tính toán sai số (Wing loss functions) để hiệu chỉnh độ lệch giữa các điểm mốc mà hai mạng AI này tạo ra, từ đó hướng mạng cảm biến tới những “tọa độ” chính xác hơn hoặc chú ý vào những điểm mốc quan trọng hơn nhưng ít cử động, ví dụ con ngươi mắt.
Nhờ vậy, mạng CNN “học trò” dùng dữ liệu cảm biến có thể tạo ra 53 điểm mốc trên gương mặt y như camera mà không cần bất kỳ hình ảnh đầu vào nào. Các bức tranh điểm mốc 2D này sau đó sẽ được chuyển thành hình ảnh 3D thông qua một mô hình đầu người được đào tạo từ trước để đảm bảo rằng những cử động 3D diễn ra một cách liên tục và tự nhiên.
Các nhà khoa học đã tiến hành thử nghiệm thiết bị với 16 tình nguyện viên, mỗi người được yêu cầu thực hiện các nét mặt như vui, buồn, tức giận, ngạc nhiên, sợ hãi… trước ống kính camera có độ phân giải khác nhau và khi đeo thiết bị BioFace-3D. Trong số các tình nguyện viên, gần 1/3 là đeo kính.
Khi so sánh, họ nhận thấy kết quả theo dõi 53 điểm mốc trên gương mặt bằng BioFace-3D tương đương với những công nghệ tái tạo gương mặt dựa trên camera hiện đại nhất hiện nay, với độ sai lệch chỉ khoảng 1,85 mm (tức 3,38%). Ngay cả khi người dùng đeo khẩu trang, hệ thống vẫn có thể khôi phục chính xác khuôn mặt với sai số tuyệt đối chỉ là 1,93 mm. Sử dụng pin lithium 500mAh, hệ thống có thể liên tục thu thập và gửi tín hiệu sinh học trong 8 giờ.
Giáo sư Hong Jiang, Trưởng khoa Khoa Học và Công Nghệ Máy Tính, Đại Học Texas Arlington, người không tham gia vào nghiên cứu, nhận xét rằng kết quả nghiên cứu này đã góp phần không nhỏ vào phát triển các kỹ thuật cảm biến đeo tai hiện có và thúc đẩy việc chuyển giao kiến thức (transfer learning) cho nhiều hệ thống học máy tổng hợp dữ liệu đa cảm biến sau này. Nó đã thu hẹp đáng kể khoảng cách giữa kiến thức giải phẫu và cơ bắp khuôn mặt người với những kỹ thuật mô hình hóa và tính toán. Kết quả của nghiên cứu sẽ được báo cáo tại hội nghị quốc tế ACM MobiCom2021 vào cuối tháng 1/2022.
Dự án của TS. Phúc và TS. Liu đã nhận được gói tài trợ lên tới nửa triệu USD từ Quỹ khoa học quốc gia Mỹ. Trong tương lai, nhóm nghiên cứu có kế hoạch cải thiện hiệu quả pin của thiết bị bằng cách thiết kế một bảng mạch thu thập dữ liệu tùy chỉnh thay vì thu liên tục như hiện nay, đồng thời sử dụng các thuật toán mô phỏng nhỏ gọn hơn và ít kênh hơn.
TS. Phúc nói rằng họ muốn chuyển việc tính toán từ server xuống thiết bị để giảm độ trễ và tăng khả năng phản hồi theo thời gian thực, điều này sẽ đòi hỏi các tính toán mới về năng lượng, thuật toán và phần cứng.
Khi được hỏi về những ứng dụng của thiết bị, TS Phúc tự hào cho biết vì không yêu cầu camera trước mặt nên hệ thống của họ mở ra một loạt cơ hội ứng dụng khác nhau. Đó có thể là nhận dạng những người lái xe buồn ngủ để cảnh báo họ tránh khỏi tai nạn, tăng khả năng chẩn đoán và điều trị một số bệnh liên quan đến biểu hiện mặt như tự kỷ, Alzheimer, đột quỵ, v.v. Nó cũng có thể áp dụng rất nhiều trong game và thực tế ảo VR/AR, nơi mọi người gặp gỡ, mua sắm, học online và hẹn hò thông qua các avatar của mình y như ở thế giới thực.