Các ứng dụng công nghệ hiện nay như nhận dạng tiếng nói, tổng hợp tiếng nói, tìm kiếm thông tin, phân loại văn bản tự động, trích rút thông tin tự động, tóm tắt văn bản tự động, dịch tự động… đều cần một kho cơ sở dữ liệu để từ đó phát triển thêm lên.
Tại Việt Nam, để xử lí ngôn ngữ tiếng Việt, các nhà khoa học máy tính chủ yếu dựa vào các kho ngữ liệu là VietTreebank, Từ điển VCL (Vietnamese Computational Lexicon), một số từ điển tiếng Việt...
Vào cuối năm 2015, dự án Wordnet – một kho dữ liệu tiếng Việt – sẽ hoàn thành, bổ sung thêm một lựa chọn so với các kho dữ liệu tiếng Việt kể trên.
|
Trang chủ dự án Wordnet - Ảnh chụp màn hình
|
Mạng từ tiếng Việt Wordnet (wordnet.vn) là một trong những sản phẩm chính của đề tài nghiên cứu khoa học cấp Nhà nước Nghiên cứu, xây dựng và phát triển một số tài nguyên và công cụ thiết yếu cho xử lí văn bản tiếng Việt, mã số KC.01.20/11-15, thuộc chương trình KC.01/11-15 do do Bộ Khoa học và Công nghệ quản lí và Công ty Cổ phần Dịch vụ Công nghệ Thông tin Naiscorp chủ trì thực hiện.
Mạng từ tiếng Việt là một cơ sở dữ liệu từ vựng tiếng Việt được xây dựng theo mô hình Mạng từ tiếng Anh (WordNet) – ra đời từ cuối những năm 1980. Kho dữ liệu này gồm ba nhóm từ loại chính là danh từ, động từ và tính từ; dự định gồm 30.000 loạt đồng nghĩa, với 50.000 đơn vị từ vựng, trong đó có 30.000 đơn vị từ vựng là từ tiếng Việt thông dụng.