Trong xu thế mở của thế giới, Việt Nam không thể đứng ngoài cuộc, đặc biệt là thông tin và dữ liệu KH&CN.

Nhìn một cách bao quát, dữ liệu là nguồn tài nguyên mới của nhiều lĩnh vực, KH&CN cũng không ngoại lệ. Việc tạo dựng những cơ sở hạ tầng thông tin KH&CN không chỉ đem lại cơ hội cho các nhà nghiên cứu hoạt động trong nhiều lĩnh vực chuyên môn có thể tra cứu, sử dụng thông tin, gợi lên những ý tưởng mới mà còn giúp các nhà quản lý, hoạch định chính sách dễ dàng rà soát, để các kết quả khoa học được lan tỏa, kế thừa…, tiết kiệm nguồn tài lực khi tránh đầu tư chồng chéo, trùng lặp. Tuy nhiên, điều này chỉ có thể trở thành hiện thực khi các kho dữ liệu KH&CN được mở và minh bạch.

Trung tâm thông tin và thống kê KH&CN TP.HCM thường xuyên sử dụng dữ liệu, mở techmart kết nối cung cầu.

Một phần của nội dung này cũng được đề cập tới trong Hội nghị toàn quốc về hoạt động thông tin, thống kê KH&CN ngày 25/11 vừa qua. So với những năm trước, hiện nay các Trung tâm dữ liệu KH&CN đã có hành lang pháp lý, có định mức kinh tế kỹ thuật để đề xuất các hoạt động cho trung tâm. Giờ đây là lúc các Trung tâm cần phải thuyết minh được vai trò của công tác thống kê và mở dữ liệu KH&CN. “Đề nghị phải liên thông dữ liệu, thậm chí dữ liệu cần được liên thông và cập nhật theo thời gian thực. Ví dụ, ngày hôm nay ở tỉnh A phê duyệt mà không liên thông thì rất có thể ngày mai ở một tỉnh B cũng đang phê duyệt chính nhiệm vụ có nội dung như vậy”, Thứ trưởng Bộ KH&CN Lê Xuân Định nói. “Đây là trách nhiệm và bổn phận của các đơn vị. Chúng ta có 63 tỉnh thành, cần đầy đủ cả 63 mảnh ghép thì mới biết chắc là không trùng lắp các đề tài nghiên cứu khoa học. Khi đã có đầy đủ các mảnh ghép rồi, không còn lý do gì để nói tôi phê duyệt làm nhiệm vụ này mà tôi không biết trùng lặp”.

Mở và liên thông dữ liệu

Đánh giá tầm quan trọng của thông tin, dữ liệu khoa học, các trung tâm khoa học lớn như châu Âu, Mỹ luôn đi tiên phong trong thúc đẩy kết nối dữ liệu từ các cơ sở KHCN, các trung tâm thông tin khoa học để toàn bộ thành viên trong cộng đồng khoa học có thể truy cập được. Bài học gần đây nhất là GISAID - một sáng kiến khoa học toàn cầu được thành lập vào năm 2008 cho phép truy cập mở vào dữ liệu 14 bộ gene của virus cúm và coronavirus gây ra đại dịch COVID-19 đã thúc đẩy nhanh tiến độ các nghiên cứu COVID trên toàn thế giới. Khủng hoảng y tế COVID-19 trên toàn cầu đã chứng minh cho cả thế giới sự cấp bách của việc khai thác truy cập tới thông tin khoa học một cách công bằng, tạo thuận lợi cho việc chia sẻ kiến thức, dữ liệu và thông tin khoa học, cải thiện việc ra quyết định dựa vào sự cộng tác, khoa học và kiến thức để giải quyết những nhu cầu cấp bách trong nghiên cứu giải trình tự gene virus, các giao thức liên quan đến chẩn đoán, phát triển thuốc hay vaccine.

Ở Việt Nam, những bước đi đầu tiên đã bắt đầu và được kỳ vọng sẽ có được một cơ sở dữ liệu về các nghiên cứu KH&CN có tính mở và liên thông, điều mà nhiều nhà khoa học và quản lý khoa học tâm huyết chờ đợi nhiều năm: công khai, minh bạch, giám sát đồng đẳng các đề tài khoa học còn ít, thì việc mở dữ liệu KH&CN còn giúp bạch hóa các kết quả nghiên cứu, đầu tư cho KH&CN từ ngân sách nhà nước. Trong nhiều buổi làm việc với Bộ KH&CN, Phó Thủ tướng Vũ Đức Đam luôn nhấn mạnh từ khóa “minh bạch” như là yếu tố then chốt để đảm bảo sự phát triển của nền khoa học. “Kết nối cơ sở dữ liệu khoa học trong nước và quốc tế để các nhà khoa học tiết kiệm thời gian, công sức, tránh trùng lặp trong nghiên cứu, giải quyết những vấn đề đã được nghiên cứu, công bố hoặc chỉ cần tiếp tục nghiên cứu sâu hơn”, Phó Thủ tướng lưu ý trong lần họp đối thoại giữa các nhà khoa học và Bộ KH&CN từ năm 2018. Gần đây nhất, họp triển khai các Chương trình KH&CN quốc gia giai đoạn 2020 – 2030 ông cũng nhấn mạnh “KH&CN không phải là độc quyền của Nhà nước hay của viện này, viện kia, cần phải cởi mở cho toàn giới khoa học. Các kết quả, đề tài nghiên cứu cần được minh bạch, công khai và gắn với trách nhiệm giải trình của các nhà khoa học”.

Bắt đầu từ năm 2018, Bộ KH&CN đã khởi động việc xây dựng cơ sở dữ liệu KH&CN quốc gia mở với 10 cơ sở dữ liệu thành phần, tức là bộ dữ liệu thông tin về: các tổ chức KH&CN; cán bộ nghiên cứu khoa học và phát triển công nghệ; nhiệm vụ KH&CN; công bố khoa học và chỉ số trích dẫn khoa học; thống kê KH&CN; công nghệ, công nghệ cao, chuyển giao công nghệ; thông tin về khoa học và công nghệ trong khu vực và trên thế giới; doanh nghiệp KH&CN; thông tin sở hữu trí tuệ và tiêu chuẩn đo lường chất lượng. Cơ sở dữ liệu này được kỳ vọng trở thành nguồn thông tin mở, góp phần minh bạch hóa việc tài trợ công cho hoạt động nghiên cứu triển khai cũng như kết quả của hoạt động này. Việc công khai các nhiệm vụ KH&CN sử dụng ngân sách nhà nước (bao gồm kết quả của các nhiệm vụ đã triển khai và các nhiệm vụ đang triển khai) sẽ bảo đảm khắc phục được sự chồng chéo, trùng lặp các nhiệm vụ KH&CN gây lãng phí nguồn lực; đồng thời chấm dứt tình trạng “đạo văn” trong nghiên cứu khoa học hoặc cho phép thực hiện những nhiệm vụ không có ý nghĩa, từ đó góp phần nâng cao chất lượng hoạt động nghiên cứu triển khai và hiệu quả sử dụng nguồn đầu tư của nhà nước cho nghiên cứu KH&CN. Trong đó, riêng dữ liệu nhiệm vụ KH&CN các cấp đã thực hiện, tính đến tháng 11/2022, đã có 37 nghìn báo cáo kết quả thực hiện nhiệm vụ KH&CN, 3.900 báo cáo ứng dụng kết quả thực hiện nhiệm vụ KH&CN được cập nhật và công bố công khai trên Hệ thống thông tin KH&CN; hơn 330 nghìn báo cáo tài liệu tài liệu đăng tải trên các tạp chí KH&CN Việt Nam, các kỷ yếu hội nghị, hội thảo KH&CN, theo báo cáo của ông Đào Mạnh Thắng, Phó Cục trưởng Cục Thông tin KH&CN quốc gia.

Còn manh mún và phân mảnh

Con đường biến thông tin KH&CN ở các nơi ở Việt Nam thành dữ liệu KH&CN thực sự, sau đó trở thành dữ liệu mở, đáp ứng được các nguyên tắc về mở, gồm số hóa để “tìm thấy được, truy cập được, tương hợp được và sử dụng lại được – FAIR (Findable, Accessible, Interoperable, Re-usable)” như ý kiến của chuyên gia về khoa học mở Lê Trung Nghĩa, Ban Tư vấn Phát triển giáo dục mở, Hiệp hội các trường đại học, cao đẳng Việt Nam trao đổi với KH&PT, có thể mất rất nhiều thời gian và thực sự không dễ dàng. Và các nguyên tắc này phải được thực hiện đồng bộ, liên thông với nhau ở mọi cơ sở, trung tâm lưu trữ dữ liệu và thống kê KH&CN từ theo cả chiều dọc (trung ương – địa phương) cũng như chiều ngang (giữa các địa phương với nhau). Tất cả sẽ khác trước rất nhiều với thời điểm cách đây mấy chục năm, khi mở cơ sở dữ liệu khoa học chỉ đơn thuần là đếm đầu tài liệu, lưu trữ lại cho đọc tại chỗ.

Nếu nhìn vào bức tranh bao quát về thông tin KH&CN được “vẽ” ra tại hội nghị, có thể thấy một bức tranh rất phức tạp và manh mún. Hiện tại, tình trạng phổ biến ở các trung tâm KH&CN các tỉnh là “mỗi địa phương có cách triển khai khác nhau, mỗi tỉnh làm một kiểu”, như chia sẻ của đại diện các sở KH&CN Hải Phòng và Đồng Tháp. Có địa phương như Thái Nguyên thừa nhận sự loay hoay của mình “Thái Nguyên tự nhận thấy trước đây đã có nhưng hệ thống dữ liệu dùng chung chúng tôi cũng chưa khai thác triệt để, chưa chia sẻ tới cộng đồng có nhu cầu”, theo chia sẻ của bà Phạm Thị Hiền, Phó Giám đốc Sở KH&CN Thái Nguyên.

Thật không ngờ, đây không là chuyện riêng của các sở KH&CN mà còn là điều xảy ra ở các cơ quan thống kê dữ liệu KH&CN cấp bộ, công tác lưu trữ, liên thông và chia sẻ dữ liệu cũng rơi vào tình trạng “chưa thể đánh giá”, theo Đại tá Đào Mạnh Thắng, Phó Cục trưởng Cục Công nghệ Thông tin của Bộ Công an, phát biểu tại Hội nghị. Vì dù hiểu rằng “phải phát triển hệ thống thông tin, đa dạng các nguồn tin, liên kết với các bộ ngành, tiến tới xây dựng cơ sở dữ liệu dùng chung, đảm bảo kết nối chia sẻ, đồng thời đảm bảo an ninh an toàn thông tin” nhưng trong chính một bộ cũng có quá nhiều “pháo đài thông tin”. “Ở B04 có kho dữ liệu riêng, rồi Học viện An ninh, Học viện Cảnh sát nhân dân cũng có dữ liệu riêng nhưng chưa kết nối chia sẻ được với nhau, rất lãng phí”, ông Thắng cho biết.

Dĩ nhiên, việc số hóa hồ sơ, kết quả nghiên cứu, đề tài/nhiệm vụ KH&CN các cấp, các địa phương và chuyển nó thành dữ liệu không phải cứ muốn là được. Công việc của toàn bộ các trung tâm dữ liệu KH&CN trong nước đã gặp khó ngay từ khâu đầu tiên, đó là năng lực tổ chức và có được khoản đầu tư tương ứng. Khoản ngân sách đầu tư cho các trung tâm này ở các địa phương rất khác nhau: dao động trung bình từ 4 tỷ đồng trở lên có thành phố Hồ Chí Minh, Đồng Nai, Bà Rịa-Vũng Tàu; 8 tỉnh được cấp trung bình từ 1 tỷ đến dưới 3 tỷ (Hà Nội, Quảng Ninh, Sơn La, Bình Phước, Trà Vinh, Hà Nam, Bình Dương, Nghệ An); còn lại 40 tỉnh được cấp trung bình từ 100 triệu đến dưới 1 tỷ và 4 tỉnh thì các trung tâm này hoạt động chỉ với nguồn kinh phí ít ỏi chỉ dưới 100 triệu. Với mức đầu tư nhỏ giọt như vậy, có lẽ ít có nơi nào có thể chu toàn cho việc chuyển những thông tin sẵn có thành dữ liệu một cách hoàn chỉnh được.

Mặt khác, về công tác tổ chức, hầu như các trung tâm, tổ chức thông tin KH&CN ở các địa phương đều trải qua nhiều lần tái cấu trúc, sắp xếp, sáp nhập… theo yêu cầu quy hoạch của địa phương. Sau những lần xáo trộn như vậy, hiện nay ở các địa phương, chức năng thông tin, thống kê KH&CN được giao cho 10 phòng quản lý và 50/63 đơn vị sự nghiệp. Nhiều địa phương giảm số đơn vị sự nghiệp trực thuộc Sở nên đã thực hiện sáp nhập, hợp nhất các đơn vị sự nghiệp “gồm cả thông tin, thống kê KH&CN, Ứng dụng KH&CN, Tiêu chuẩn đo lường chất lượng với …22 tên gọi khác nhau” về các trung tâm có chức năng tập trung dữ liệu KH&CN này, ông Đào Mạnh Thắng cho biết. Trong bối cảnh như vậy, thật khó để những người làm thông tin KH&CN địa phương có thể yên tâm thực hiện nhiệm vụ hoặc dồn hết tâm sức vào công việc. Dĩ nhiên, tình trạng này cho thấy công tác thông tin KH&CN ở địa phương hoặc chưa đáp ứng được yêu cầu chung trên lộ trình phát triển của tỉnh, hoặc chưa có điều kiện thể hiện được vai trò của mình.

Thậm chí, ít ai biết rằng, sau nhiều năm xây dựng, cho đến tháng năm vừa qua, các Trung tâm KH&CN mới có định mức kinh tế-kỹ thuật cho 200 dịch vụ sự nghiệp công sử dụng ngân sách nhà nước trong lĩnh vực thông tin, thống kê, thư viện KH&CN (theo Thông tư số 06/2022/TT-BKHCN ngày 31/5/2022 của Bộ trưởng Bộ Khoa học và Công nghệ).

Do đó, có lẽ, con đường đến với Mở của thông tin KH&CN Việt Nam sẽ còn rất xa xôi. Bởi ngoài dữ liệu có sẵn và được chuẩn hóa thì các trung tâm dữ liệu KH&CN phải đáp ứng tiêu chuẩn kết nối mở, “nếu các phần mềm, công cụ quản lý tài nguyên của các thư viện không tuân thủ theo một chuẩn kết nối thì mỗi nơi sẽ như một ‘pháo đài’, không thể làm được gì cả”, ông Lê Trung Nghĩa cho biết. “Nếu không chia sẻ mà cứ đút bàn như thế thì phí công, phí tiền, phí sức của tất cả mọi người”. Kinh nghiệm của một số trung tâm cơ sở dữ liệu khoa học trong nước, như Đại học Quốc gia là phải chọn phần mềm tìm kiếm tập trung mã nguồn mở Vufind và giao thức OAI-PMH - một tiêu chuẩn toàn cầu trong việc thu thập dữ liệu thông tin - để kết nối các thư viện, chuẩn hóa để có thể trao đổi được dữ liệu với nhau. “Chúng tôi dùng giao thức là chuẩn OAI-PMH, chuẩn kết nối sáng kiến lưu trữ mở của thế giới, thì bất cứ một phần mềm quản lý dữ liệu nào của các thư viện có chuẩn đó thì mới kết nối được. VD như có một số phần mềm trên Android, một số trên IOS, một số trên hai nền tảng, …. word, ppt, pdf…. như vậy chuẩn OAI-PMH là cái rất quan trọng, tiên quyết để tất cả có thể trao đổi được dữ liệu với nhau”, TS. Nguyễn Hoàng Sơn - Giám đốc Trung tâm Thông tin - Thư viện ĐH Quốc gia Hà Nội từng trao đổi với KH&PT.

Lắng nghe trao đổi về những khó khăn trong hoạt động thông tin KH&CN của các địa phương, Thứ trưởng Bộ KH&CN Lê Xuân Định cho biết ông hoàn toàn thấu hiểu những khó khăn này trên cương vị của người đã từng phụ trách Cục Thông tin KH&CN quốc gia trong nhiều năm. Ông gợi ý, các trung tâm cần tự đánh giá để nắm bắt được nhu cầu thông tin của các đơn vị ở địa phương cũng như năng lực của chính mình. Đây sẽ là cơ sở đề xuất nội dung nhiệm vụ và kinh phí thực hiện phù hợp. “Khi còn làm Vụ trưởng Vụ kế hoạch tài chính tôi rất muốn có đề xuất vào ô “thông tin”, nhưng không thấy sở KHCN nào đề xuất. Trong khi đây là mục được Bộ Tài chính ưu tiên, ví dụ như chúng ta sẵn sang duyệt chi hơn 1 triệu USD để mua quyền truy cập cơ sở dữ liệu ScienceDirect”, Thứ trưởng Lê Xuân Định cho biết.

Các trung tâm thông tin và thống kê KH&CN cần tự đánh giá để nắm bắt được nhu cầu thông tin của các đơn vị ở địa phương cũng như năng lực của chính mình. Đây sẽ là cơ sở đề xuất nội dung nhiệm vụ và kinh phí thực hiện phù hợp.

Thứ trưởng Lê Xuân Định


Một trong những điểm sáng hiếm hoi hiện nay là Trung tâm Thông tin và Thống kê KH&CN TP. HCM đã số hóa các dữ liệu KH&CN, sẵn sang chia sẻ với tất cả các thư viện khác, từ nguồn dữ liệu KH&CN này, Trung tâm thường xuyên kết nối các nhà khoa học với doanh nghiệp, tổ chức các techmart, các café công nghệ nhưng cũng vấp phải khó khăn là “tiền vốn đầu tư ít, nhân lực ít”, trong khi để chuyển đổi số dữ liệu thì quá nhiều nguồn lực. “Hiện nay tìm một bạn sinh viên công nghệ thông tin mới ra trường vào làm rất khó, vì mặt bằng lương của ngành này đã mười mấy triệu rồi. Còn Trung tâm chỉ có khả năng trả lương 2.34 cộng thêm phụ cấp thì tổng thu nhập được 8 triệu 10 triệu rồi. Bên ngoài họ tuyển cái là người của mình đi liền”, ông Nguyễn Đức Tuấn, Quyền Giám đốc Trung tâm Thông tin và Thống kê KH&CN TP. HCM cho biết.