Các cuộc thi - mỗi cuộc ứng với một bài toán cơ bản trong xử lý tiếng nói và ngôn ngữ - đã thu hút sự tham gia của hàng trăm đội thi đến từ nhiều trường đại học, viện nghiên cứu trong và ngoài nước, các tập đoàn, công ty công nghệ.

Đội thị Speech World (VinBigData) giành giải nhất cuộc thi Tổng hợp tiếng nói. Ảnh: MH

Ngày 26/11, Câu lạc bộ Xử lí ngôn ngữ và tiếng nói tiếng Việt (VLSP) và Hội Tin học Việt Nam đã phối hợp với nhiều trường đại học, viện nghiên cứu cùng tổ chức Hội thảo VLSP lần thứ 9 tại Viện Nghiên cứu Cao cấp về Toán.

Trong khuôn khổ sự kiện, Câu lạc bộ VLSP đã tổ chức trao giải cho những người chiến thắng tại 7 cuộc thi về xử lí tiếng nói và xử lí văn bản, gồm: (1) Tổng hợp tiếng nói, (2) Nhận dạng tiếng nói, (3) Xác minh người nói, (4) Phân tích cú pháp thành phần, (5) Tóm tắt đa văn bản, (6) Dịch máy Trung – Việt, (7) Hỏi đáp đa ngữ về nội dung ảnh.

Mỗi cuộc thi ứng với một bài toán cơ bản trong xử lý tiếng nói và ngôn ngữ. Trong đó, nhận dạng tiếng nói tiếng Việt (Vietnamese Automatic Speech Recognition - VietASR) là một trong những bài toán quan trọng nhất của xử lý tiếng nói.

"Trong gần 3 năm đại dịch vừa qua, chúng ta có một kho khổng lồ các video bài giảng trực tuyến. Nhu cầu tự động phân loại, đánh chỉ mục, tìm kiếm nội dung kho bài giảng đó là rất lớn", thông cáo báo chí dẫn lời TS. Đỗ Văn Hải - Trường Đại học Thuỷ lợi, thành viên Ban tổ chức - về lý do chủ đề của cuộc thi năm nay tập trung vào nhận dạng các bài giảng trực tuyến. "Đề thi năm nay đã mô tả các bài toán trong thực tế, khi mà dữ liệu gắn nhãn thường ít và rất đắt đỏ, trong khi dữ liệu âm thanh thô thì dễ dàng thu thập hơn rất nhiều. Sử dụng công nghệ nhận dạng tiếng nói với độ chính xác cao để chuyển những video đó ra văn bản là bài toán giải quyết được nhu cầu trên".

Một trong những điểm mới của VLSP 2022 còn nằm ở chủ đề của cuộc thi Tổng hợp tiếng nói. Theo đó, các đội thi phải chinh phục 4 sắc thái cảm xúc phổ biến bao gồm trung lập (neutral), buồn (sadness), vui (joy) và cáu giận (anger). Với yêu cầu này, mỗi nhóm phải nghiên cứu và phát triển hệ thống tổng hợp tiếng nói với các nhãn cảm xúc đầu vào, để đưa ra giọng nói đầu ra tương ứng với nhãn cảm xúc đó.

"Tổng hợp tiếng nói có cảm xúc (Emotional Speech Synthesis - ESS) là một hướng nghiên cứu với nhiều thách thức, cho phép tái tạo lại giọng nói của con người theo biểu cảm cảm xúc nhất định. Hướng nghiên cứu này đã mở ra những ứng dụng có nhu cầu cao như thuyết minh/lồng tiếng phím, trợ lý ảo, kể chuyện,...", TS Nguyễn Thị Thu Trang, Trường ĐH Bách khoa Hà Nội, nói.

Các cuộc thi đã thu hút sự tham gia của hàng trăm đội thi đến từ nhiều trường đại học, viện nghiên cứu trong và ngoài nước, các tập đoàn, công ty công nghệ như các trường đại học thành viên của Đại học Quốc gia Hà Nội, Đại học Quốc gia TPHCM, Trường Đại học Bách khoa Hà Nội, Viện JAIST (Nhật Bản), Đại học Stanford (Mỹ), Samsung SDS, VinBigData, VCCorp, FTech, Viettel, FPT.AI, CMC, VNPT,…

“Trong những năm gần đây, chuỗi hội thảo của Câu lạc bộ Xử lí ngôn ngữ và tiếng nói tiếng Việt (VLSP), Hội Tin học Việt Nam đã có những đóng góp rất tích cực cho cộng đồng thông qua việc cung cấp các bộ dữ liệu có chú giải miễn phí dùng trong nghiên cứu", TS Nguyễn Thị Minh Huyền - Trường Đại học Khoa học Tự nhiên, ĐHQG Hà Nội, Chủ tịch CLB VLSP - nhận xét. Thông qua việc tổ chức các cuộc thi cho các nhóm nghiên cứu xử lí ngôn ngữ, Ban tổ chức đã có được "đánh giá khách quan về chất lượng các công cụ giải quyết các tác vụ khác nhau trong lĩnh vực xử lí ngôn ngữ tự nhiên", qua đó cộng đồng nghiên cứu cũng được chia sẻ các tiến bộ KH&CN nhờ các báo cáo khoa học của các đội thi xuất sắc nhất tại hội thảo.

Danh sách các đội đạt giải Nhất theo từng cuộc thi:

1.
Nhận dạng tiếng nói: Trung tâm Không gian mạng Viettel

2. Tổng hợp tiếng nói: VinBigData

3. Xác minh người nói:

3.1 Xác minh người nói đa ngữ cho các ngôn ngữ Ấn:

- Có ràng buộc tài nguyên: Đại học Bách khoa Tây Bắc (NPU), Trung Quốc

- Không ràng buộc tài nguyên: Học viện Công nghệ Bưu chính Viễn thông và VNG

3.2 Xác minh người nói các ngôn ngữ châu Á:
InterITS JSC và Đại học Thái Nguyên

4. Phân tích cú pháp thành phần tiếng Việt: Trường ĐH Stanford, Mỹ

5. Hỏi đáp đa ngữ về nội dung ảnh: Viện Nghiên cứu Ứng dụng Công nghệ CMC, CMC Corporation

6. Dịch máy: Samsung SDS R&D Center

7. Tóm tắt tóm lược đa văn bản: Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội