Đây là bộ ngữ liệu đầu tiên phục vụ cho nghiên cứu ba phương ngữ chính của tiếng Việt mà đại diện là giọng Hà Nội cho phương ngữ Bắc, giọng Huế cho phương ngữ Trung và giọng TP.HCM cho phương ngữ Nam.
TS. Phạm Ngọc Hưng, Trường đại học bách khoa Hà Nội đã nghiên cứu nhận dạng tự động tiếng nói phát âm liên tục cho các phương ngữ chính của tiếng Việt theo phương thức phát âm. Nghiên cứu đã xây dựng được bộ ngữ liệu tiếng Việt VDSPEC dùng cho nghiên cứu nhận dạng phương ngữ tiếng Việt và nhận dạng tiếng Việt nói.
Khó khăn trong nhận dạng các phương ngữ khác nhau
Theo TS. Phạm Ngọc Hưng, với sự phát triển mạnh mẽ của máy tính, các ứng dụng của máy tính trong mọi lĩnh vực của cuộc sống đã làm nảy sinh nhiều yêu cầu nhằm đơn giản hoá quá trình sử dụng, tăng hiệu quả khai thác máy tính và các ứng dụng trên máy tính. Trong bối cảnh đó, xử lý tiếng nói nói chung và nhận dạng tiếng nói nói riêng là vấn đề đã và đang được quan tâm nghiên cứu, phát triển ứng dụng nhằm nâng cao hiệu quả sử dụng của máy tính phục vụ con người trong cuộc sống.
Trên thế giới đã có nhiều nghiên cứu về vấn đề này và đã đạt được nhiều thành công. Nhiều sản phẩm hữu ích từ các kết quả nghiên cứu đã được ứng dụng trong thực tế. Riêng về nhận dạng tiếng Việt, mặc dù đã có nhiều nghiên cứu và đạt được các thành công nhất định nhưng để triển khai thành các sản phẩm ứng dụng thực tế vẫn còn nhiều mặt hạn chế, đặc biệt là độ chính xác, chất lượng nhận dạng. Ngoài các khó khăn trong nhận dạng tiếng nói nói chung, nhận dạng tiếng Việt nói còn gặp trở ngại lớn phải kể đến là vấn đề về phương ngữ tiếng Việt.
Tiếng Việt có nhiều phương ngữ khác nhau. Giữa các phương ngữ có sự khác biệt cả về từ vựng và ngữ âm trong đó ngữ âm là yếu tố quan trọng để tạo nên sự khác biệt và phân chia các phương ngữ. Xét về từ vựng, sự khác nhau có thể ở một số bộ phận cấu thành từ hay sự biến đổi của từ. Sự khác nhau cũng có thể xuất phát từ nguồn gốc của từ. Ví dụ khi nói về cái kính (để đeo lên mắt), cái gương (để soi), theo cách gọi ở miền Bắc, chúng được phân biệt rõ ràng bởi từ “kính”, “gương” (“đeo kính”, “soi gương”). Trong khi đó, ở miền Nam, cả hai vật này chỉ được gọi bằng một từ là kiếng (biến thể về âm của kính). Thay vì nói “đeo kính”, phương ngữ Nam lại dùng cách nói “đeo kiếng”. Cũng như vậy, thay vì “soi gương” phương ngữ Nam lại dùng cách nói “soi kiếng”. Ở miền Trung, hai vật kính và gương đều được gọi bằng từ “gương”. Hai thao tác tương ứng đeo kính, soi gương được diễn đạt bằng “soi gương” và “đeo gương”. Xét về mặt ngữ âm, sự khác biệt giữa các phương ngữ được thể hiện khá rõ ràng. Chẳng hạn với phương ngữ Nam, hai phụ âm cuối “nh” và “ch” thường bị biến đổi thành “n” và “t” trong cách phát âm. Do vậy, từ “tịch” theo cách phát âm giọng miền Nam thì lại là “tựt” (nguyên âm “i” biến thành “ư” và phụ âm cuối “ch” thành “t”) hoặc “nhanh” thì thành “nhăn”, “mình” thành “mừn”.
Sự khác biệt nêu trên gây ra không ít khó khăn cho ngay chính con người khi giao tiếp với người sử dụng phương ngữ khác. Rõ ràng, sự khác biệt đó cũng ảnh hưởng tới các hệ thống nhận dạng tiếng Việt nói, làm giảm hiệu quả nhận dạng của các hệ thống nhận dạng tiếng nói. Chính vì vậy, cần thiết phải nghiên cứu vấn đề nhận dạng tiếng Việt nói theo các vùng phương ngữ khác nhau nhằm tìm ra giải pháp kỹ thuật nâng cao hiệu quả nhận dạng tiếng Việt nói.
TS. Phạm Ngọc Hưng cho rằng, trước khi tiến hành nhận dạng nội dung tiếng nói, nếu có thể xác định được tiếng nói đó thuộc phương ngữ nào thì có thể xây dựng hệ thống nhận dạng với ngữ liệu được tổ chức phù hợp cho từng phương ngữ và sử dụng ngữ liệu này để nhận dạng tiếng nói của phương ngữ tương ứng. Với cách xây dựng hệ thống nhận dạng tiếng nói như vậy, các sai nhầm nhận dạng của hệ thống do phương thức phát âm hay thậm chí là cả do sử dụng từ địa phương sẽ được giảm bớt, hiệu năng nhận dạng của hệ thống sẽ được cải thiện.
Ảnh minh họa.
Bộ ngữ liệu đầu tiên phục vụ cho nghiên cứu ba phương ngữ chính của tiếng Việt
TS. Phạm Ngọc Hưng cho biết: “Phương ngữ tiếng Việt rất phong phú. Về mặt địa lý, xét theo phương thức phát âm, phương ngữ có thể thay đổi theo từng làng, xã. Tuy nhiên, trong phạm vi nghiên cứu của luận án, do thời gian có hạn, luận án chỉ giới hạn nghiên cứu nhận dạng ba phương ngữ chính và phổ biến của tiếng Việt theo phương thức phát âm là phương ngữ Bắc (lấy giọng Hà Nội làm đại diện), phương ngữ Trung (lấy giọng Huế làm đại diện) và phương ngữ Nam (lấy giọng Thành phố Hồ Chí Minh làm đại diện). Bên cạnh đó, với mục tiêu ứng dụng kết quả nhận dạng phương ngữ tiếng Việt vào hệ thống nhận dạng tự động tiếng Việt nói nhằm cải thiện hiệu năng nhận dạng, nhận dạng phương ngữ được xem là bước tiền xử lý trong hệ thống nhận dạng tự động tiếng Việt. Việc nhận dạng phương ngữ cần được tiến hành trước khi nhận dạng nội dung, nghĩa là ở thời điểm còn chưa biết nội dung tiếng nói. Vì vậy, thao tác của hệ thống nhận dạng phương ngữ chưa thể khai thác các thông tin về từ địa phương mà chủ yếu là khai thác thông tin về phương thức phát âm của phương ngữ”.
Kết quả nghiên cứu đã xây dựng được bộ ngữ liệu tiếng Việt VDSPEC dùng cho nghiên cứu nhận dạng phương ngữ tiếng Việt và nhận dạng tiếng Việt nói. Đây là bộ ngữ liệu đầu tiên phục vụ cho nghiên cứu ba phương ngữ chính của tiếng Việt mà đại diện là giọng Hà Nội cho phương ngữ Bắc, giọng Huế cho phương ngữ Trung và giọng Thành phố Hồ Chí Minh cho phương ngữ Nam.
Ngữ liệu tiếng Việt VDSPEC được ghi âm trực tiếp từ người nói theo văn bản đã được chuẩn bị sẵn và tổ chức theo chủ đề. Nội dung ghi âm được lựa chọn đảm bảo yếu tố cân bằng về thanh điệu, bảo phủ các âm vị tiếng Việt. Tổng thời lượng ghi âm là 45,12 giờ tiếng nói tương ứng với dung lượng lưu trữ 4,84 GB. Bộ ngữ liệu này có vai trò quan trọng cho việc thực hiện các nghiên cứu tiếp theo trong luận án cũng như có thể ứng dụng cho các nghiên cứu khác về nhận dạng phương ngữ, nhận dạng tiếng Việt nói.
Nghiên cứu đã nghiên cứu mô hình HMM nhận dạng tự động tiếng Việt nói trên ngữ liệu có phương ngữ, kết quả cho thấy vai trò tích cực của việc xác định được phương ngữ trước khi nhận dạng nội dung tiếng nói. Nghiên cứu này đã được tiến hành theo hai trường hợp. Trường hợp thứ nhất: nhận dạng nội dung tiếng Việt nói trên ngữ liệu có phương ngữ nhưng không dùng thông tin phương ngữ. Trường hợp thứ hai: nhận dạng nội dung tiếng Việt nói trên ngữ liệu có phương ngữ sau khi đã có thông tin phương ngữ. Kết quả nghiên cứu cho thấy, trong trường hợp nhận dạng có thông tin phương ngữ, tỷ lệ lỗi từ tương đối đã giảm 27,9%, tương đương với độ chính xác nhận dạng đã tăng lên một cách đáng kể. Đây là lần đầu tiên mô hình HMM được sử dụng nhận dạng tự động tiếng Việt nói trên ngữ liệu có phương ngữ.
Tổng hợp các kết quả đã nghiên cứu, TS. Phạm Ngọc Hưng đề xuất mô hình mới và mạnh để nhận dạng tiếng Việt nói, là một ngôn ngữ có phương ngữ rất đa dạng, trong đó cần tiến hành nhận dạng phương ngữ trước khi nhận dạng nội dung, nhằm thực sự nâng cao hiệu năng cho hệ thống nhận dạng tiếng Việt nói.