Nhóm nghiên cứu thuộc dự án Mạng lưới các nhà khoa học xã hội Việt Nam (NVSS) vừa có bài công bố trên Scientific Data, một tạp chí uy tín về khoa học dữ liệu, giáo dục và thống kê-xác suất thuộc Nature Research.
Công trình có tên gọi “
An open database of productivity in Vietnam’s social sciences and
humanities for public use” (Cơ sở dữ liệu mở về năng suất của KHXH&NV Việt Nam phục vụ mục đích công) vừa được website của Nature Research công bố hôm 25/9/2018. Nghiên cứu là đóng góp cho đề tài 502.01-2018.19 do Quỹ NAFOSTED tài trợ.
Nhóm nghiên cứu NVSS bao gồm toàn các thành viên người Việt đến từ hai đại học ngoài công lập là Đại học Thành Tây, Hà Nội, và Đại học Phú Xuân, Huế (Vương Quân Hoàng, Lã Việt Phương, Vương Thu Trang, Hồ Mạnh Toàn, Nguyễn Tô Hồng Kông, Nguyễn Việt Hà, Phạm Hùng Hiệp, Hồ Mạnh Tùng).
Nghiên cứu trình bày quá trình xây dựng logic, kiến trúc hạ tầng kỹ thuật, lựa chọn thuật toán, sự tiến hóa của dữ liệu, cùng với hệ thống kiểm định, xác thực, chuẩn hóa dữ liệu và khả năng tương tác, cấu trúc cơ sở dữ liệu, và khả năng phân tích dữ liệu lưới kèm đồ họa.
Lượng dữ liệu sử dụng ban đầu bao gồm 657 nhà khoa học có quốc tịch Việt Nam cùng 973 đồng tác giả ngoại quốc có ít nhất 1 bài công bố trên tạp chí thuộc lĩnh vực KHXH&NV được Scopus chỉ mục hóa trong giai đoạn 2008-2018.
Theo kỹ sư Lã Việt Phương, một trong hai kỹ sư chịu trách nhiệm thiết kế cấu trúc logic, cơ sở dữ liệu và viết thuật toán máy tính của dự án, xây dựng một chỉnh thể cơ sở dữ liệu các kết quả nghiên cứu và cấu trúc dữ liệu, đồ họa lưới các nhóm nghiên cứu KHXH&NV là quyết định và công việc này rất khó khăn, nhiều rủi ro thất bại.
Quá trình chuẩn bị kéo dài từ tháng 1-2017, “tiến hóa” qua nhiều bước, trong đó có “bước dừng” gần 3 tháng chỉ để xây dựng bổ sung hệ thống bán tự động nhập liệu, kiểm định/chuẩn hóa dữ liệu, phát triển thuật toán phân tích. Sau 13 tháng, bản thảo mới hoàn thành. Mất thêm khoảng 6 tháng để vượt qua 3 vòng phản biện rất khó khăn.
“Scientific Data là tạp chí hàng đầu về khoa học dữ liệu. Ban biên tập và phản biện yêu cầu rất khắt khe về tính thuyết phục của các yếu tố kỹ thuật, gồm cả logic cấu trúc và giá trị khoa học” - anh Hồ Mạnh Toàn, một trong các đồng tác giả, cho biết.
Được biết
Scientific Data là tạp chí duy nhất của Nature Publishing Group chuyên về khoa học dữ liệu/thống kê. Tạp chí đã được chỉ mục trong ISI Clarivate Web of Science với hệ số tác động JIF 2017 là 5.30,
trong Scopus với chỉ số CiteScore 2017 là 6.08. Scopus cũng xếp hạng Scientific Data thuộc nhóm Q1 ở tất cả 6 lĩnh vực: Khoa học Thông tin và Thư viện (xếp hạng 1/202 tạp chí thuộc lĩnh vực); Xác suất - Thống kê - Rủi ro thuộc Khoa học quyết định (hạng 2/110); Xác suất - Thống kê thuộc Toán tổng quát (hạng 4/187); Nghiên cứu giáo dục thuộc KHXH (hạng 5/979); Hệ thống thông tin (hạng 12/251) và Ứng dụng KH Máy tính (hạng 21/535).