Để triển khai Chiến lược Quốc gia về nghiên cứu, phát triển và ứng dụng trí tuệ nhân tạo đến năm 2030, Việt Nam sẽ cần vượt qua những khó khăn liên quan đến quá trình thu thập, chia sẻ và đảm bảo chất lượng dữ liệu.

Dữ liệu còn rời rạc

Ngày 19/1/2020, khi đại dịch COVID-19 bắt đầu lan ra toàn thế giới, thì cũng là lúc các trình tự bộ gene hoàn chỉnh đầu tiên của SARS-CoV-2 được chia sẻ lên GISAID. Sau hơn một năm, hiện tại trên GISAID đã có hơn 2 triệu dữ liệu về COVID-19, là nguồn dữ liệu quý giá trong việc truy vết ca bệnh, xét nghiệm tầm soát, tạo điều kiện thuận lợi cho quá trình phát triển các loại vaccine đầu tiên. Đối với những người nghiên cứu về virus cúm, GISAID không phải là một cái tên xa lạ. Sáng kiến khoa học này đã trở thành nguồn chia sẻ và trao đổi nhanh dữ liệu về virus trong đại dịch H1N1 vào năm 2009, đại dịch H7N9 vào năm 2013, và giờ đây là đại dịch Covid-19. Bà Soumya Swaminathan (trưởng nhóm khoa học của WHO) đã gọi sáng kiến khoa học dữ liệu này là “nhân tố thay đổi cuộc chơi” trong cuộc chiến chống dịch.

Các nhà khoa học thuộc Viện VinBigdata đang kiểm tra hệ thống quản lý, phân tích và chia sẻ dữ liệu y sinh học VinGen Data Portal. Ảnh: VinBigdata

Câu chuyện mà TS. Võ Sỹ Nam (Trưởng phòng Tin Y sinh ứng dụng, Viện nghiên cứu Dữ liệu lớn VinBigData) dẫn chứng tại tọa đàm trực tuyến “Phát triển hạ tầng dữ liệu và tính toán cho trí tuệ nhân tạo tại Việt Nam” do Bộ KH&CN tổ chức vào ngày 30/6 cho thấy vai trò của cơ sở dữ liệu trong lĩnh vực y sinh học trong cuộc chiến chống đại dịch ngay trước mắt. Nhưng đó mới chỉ là một phần trong bức tranh lớn hơn nhiều về dữ liệu - nguồn tài nguyên để phát triển ứng dụng trí tuệ nhân tạo. Vào năm 2020, ước tính dữ liệu toàn cầu đạt 334 zettabyte, nhưng đến năm 2035 dự đoán sẽ lên đến 20.000 zettabyte. Sự bùng nổ dữ liệu này đã dẫn đến nhiều tiềm năng cũng như rất nhiều thách thức mà chúng ta phải đối phó, xử lý. Do đó, chỉ có chủ động được công nghệ hạ tầng dữ liệu và tính toán thì chúng ta mới có thể hiện thực hóa Chiến lược quốc gia về nghiên cứu, phát triển và ứng dụng trí tuệ nhân tạo đến năm 2030 nhằm bắt kịp cuộc cách mạng công nghiệp lần thứ tư mà Thủ tướng đã phê duyệt hồi cuối tháng 1/2021.

Tự chủ công nghệ hạ tầng dữ liệu chính là điều mà các nước phát triển đã đặt ra từ lâu. Điều đó lý giải cho việc, ngay cả trong những tình huống đại dịch bất thường và bị động như COVID, một số nước có thể xây dựng cơ sở dữ liệu về SARS-CoV-2 rất nhanh. Đơn cử như Cơ sở dữ liệu quốc gia về thông tin công nghệ sinh học (NCBI) của Mỹ đã được duy trì liên tục từ thập niên 1990 và tăng trưởng liên tục đến nay lưu trữ khoảng 200 triệu chuỗi gene của tất cả các loài, với hơn 7 triệu người dùng hằng tháng.

Vì thế, tại tọa đàm nhiều lần PGS. TS Thoại Nam (Trưởng Phòng thí nghiệm Tính toán Hiệu năng cao, Đại học Bách khoa, Đại học Quốc Gia TP.HCM) nhấn mạnh việc “dữ liệu là thứ phải là của mình”. Bất kỳ ứng dụng công nghệ mới nào cũng phải phát triển dựa vào dữ liệu, không có dữ liệu để phát triển AI cũng giống như “tay không bắt giặc”. Tuy nhiên hạ tầng dữ liệu và tính toán của Việt Nam mới đang ở mức sơ khởi so với những nước phát triển khác, còn dữ liệu là thứ mà “dù có tiền thì cũng chưa chắc thu thập được” vì một mặt dữ liệu của Việt Nam rất nhiều nhưng đang trong tình trạng “rải rác nằm ở khắp nơi”, mặt khác “nó liên quan đến quyền riêng tư, và là tài sản quý giá đối với những đơn vị sở hữu”.

Nỗ lực thúc đẩy chia sẻ và tập trung dữ liệu của Chính phủ Việt Nam đã được thể hiện qua việc khởi động Cổng dữ liệu quốc gia để chia sẻ dữ liệu, cũng như thiết lập Hệ tri thức Việt số hóa để thu thập nguồn dữ liệu từ nhiều nơi khác nhau, dán nhãn và tiền xử lý những dữ liệu đó nhằm ứng dụng cho trí tuệ nhân tạo. “Một điều thú vị là chúng ta đã kết hợp được giữa nguồn lực công và tư, giữa tổ chức học thuật và doanh nghiệp”, TS. Võ Sỹ Nam lưu ý, “sự kết hợp này rất quan trọng bởi Việt Nam là một nước đang phát triển và còn giới hạn về nguồn lực”.

Tuy nhiên, nỗ lực từ phía Chính phủ thôi thì chưa đủ, PGS. Thoại Nam cho rằng muốn xây dựng được một hạ tầng dữ liệu chất lượng, cần phải có sự chung tay từ cộng đồng. “Việc chia sẻ sẽ giúp tập trung những dữ liệu này lại, tạo tiền đề cho các cho các nghiên cứu có ích cho xã hội, thúc đẩy kinh tế - xã hội phát triển. Tuy vậy, tinh thần tập trung và chia sẻ dữ liệu ở các quốc gia phát triển rất cao, nhưng ở những quốc gia đang phát triển – trong đó có Việt Nam – thì tinh thần này lại chưa cao”, anh nhận định.

Song song với việc thúc đẩy văn hóa chia sẻ dữ liệu, PGS. Thoại Nam lưu ý, “Nhà nước cần có những chính sách bảo đảm tính bảo mật và quyền riêng tư, nếu không sẽ có rất nhiều vấn đề nảy sinh và chúng ta sẽ phải đối diện với nhiều hậu quả trong tương lai”.

Đồng tình với ý kiến này, TS. Võ Sỹ Nam cho biết muốn nâng cao hạ tầng dữ liệu và tính toán tại Việt Nam, trước hết cần phát triển một nền tảng cho phép tập hợp và chia sẻ những nguồn dữ liệu rời rạc đó, và Nhà nước cần đưa ra các quy tắc để đảm bảo cân bằng giữa quyền riêng tư và chia sẻ dữ liệu. “Kỷ nguyên dữ liệu mở đã bắt đầu, và thậm chí bắt đầu từ lâu. Sự bùng nổ dữ liệu mở ra nhiều tiềm năng nhưng cũng dẫn đến nhiều thách thức. Chúng ta cần phải thận trọng để ứng phó, xử lý với những thách thức ấy”, anh khẳng định.

Kiểm soát chất lượng dữ liệu

Bên cạnh những khó khăn trong việc tập hợp và chia sẻ dữ liệu gốc, Chính phủ Việt Nam hay bất kỳ các doanh nghiệp nào muốn phát triển hạ tầng dữ liệu đều phải đối mặt với một thách thức lớn khác, đó là làm thế nào để đảm bảo chất lượng.

Đảm bảo chất lượng dữ liệu tốt là công việc cốt lõi thậm chí quyết định đến 70-80% quá trình làm ứng dụng AI nhưng chưa thực sự được chú trọng mà “phần lớn chúng ta cứ tập trung vào làm mô hình, cải thiện mô hình, tính toán…”, TS. Võ Sỹ Nam lưu ý. Từ kinh nghiệm của người trực tiếp tham gia phát triển cổng dữ liệu VinGen – nền tảng quản lý, phân tích và chia sẻ dữ liệu y sinh học, TS. Võ Sỹ Nam cho rằng để đảm bảo được chất lượng dữ liệu, cần kiểm thử và đánh giá chất lượng dữ liệu liên tục qua các bước. Các nhà khoa học trong lĩnh vực y sinh rất chú ý đến vấn đề này, họ cực kỳ cẩn thận khi thu thập dữ liệu, ghi chú kỹ lưỡng từng bước một trong quá trình dán nhãn. Anh Sỹ Nam lưu ý “cần lan tỏa phong cách làm việc ấy, vì quá trình tiền xử lý, tinh chỉnh, dán nhãn dữ liệu đến là những bước quan trọng nhằm đảm bảo chất lượng dữ liệu”.

Mặt khác, để có được dữ liệu chất lượng, các nhà khoa học cũng cần đảm bảo sự đồng nhất về dữ liệu. “Dữ liệu liên tục thay đổi vì nó đến từ nhiều nguồn khác nhau. Dù cùng một định danh dữ liệu, nhưng qua thời gian, quá trình xử lý trong hệ thống, nó có thể thay đổi rất nhiều và dẫn đến những sai lệch nhất định”, anh Võ Sỹ Nam lưu ý. Những mất mát, sai lệch cũng diễn ra khi truyền nhận dữ liệu giữa các module của hệ thống lẫn giữa hệ thống và người dùng. “Vấn đề này ít khi gặp phải nếu chúng ta xử lý nguồn dữ liệu bé, nhưng khi xử lý dữ liệu lớn thì đây là vấn đề thường xuyên. Vì vậy, cần phải sử dụng công cụ theo dõi mất mát, sai lệch trong luồng dữ liệu để đảm bảo sự toàn vẹn và chất lượng của dữ liệu”.

Bản thân những dữ liệu trên nền tảng VinGen đã được dán nhãn, xử lý, tinh chỉnh rõ ràng và chính xác để sẵn sàng sử dụng cho các nghiên cứu về trí tuệ nhân tạo. “Mô hình dữ liệu này là một nỗ lực đại diện nhằm tập hợp các nguồn dữ liệu trong các cấu trúc như cột đồ thị để có các nhãn, có thông tin mô tả dữ liệu một cách chính xác”, anh Võ Sỹ Nam cho biết.

Nhìn chung, dù là xây dựng hạ tầng dữ liệu trong bất kỳ lĩnh vực nào, chúng ta cũng cần phải có một kế hoạch dài hạn và bắt tay ngay từ bây giờ trong bối cảnh dữ liệu đang tăng lên từng phút từng giây. Chẳng hạn như kênh thông tin về công nghệ sinh học của Mỹ NCB - chỉ trong đợt dịch vừa qua, đã thu thập được hơn 600.000 bộ dữ liệu, 700.000 bản ghi nucleotide và gần 150.000 công trình nghiên cứu liên quan đến COVID-19.

Những trường hợp kể trên là minh chứng rõ ràng nhất cho thấy việc xây dựng một hạ tầng cơ sở dữ liệu chất lượng không phải là chuyện một sớm một chiều, mà chúng ta cần “một kế hoạch dài hạn để duy trì, xây dựng và phát triển nó”, TS. Võ Sỹ Nam kết luận.

Văn hóa chia sẻ dữ liệu mở

Kỷ nguyên dữ liệu mở đã bắt đầu, và thậm chí bắt đầu từ lâu. Các Chính phủ Canada, Thụy Sĩ, Úc… đã bắt đầu chia sẻ các nguồn dữ liệu mở. Ví dụ cơ sở dữ liệu mở của Chính phủ Mỹ hiện có 300.000 bộ dữ liệu, 15.000 chủ đề, 150 tổ chức. Mỹ cũng có Đạo luật dữ liệu chính quyền mở 2019: Dữ liệu chính quyền phải mở cho toàn dân truy cập, đồng thời liên tục đảm bảo riêng tư và bảo mật. Về phía tư nhân, nhiều tổ chức ví dụ như OSDC, một tổ chức dữ liệu khoa học mở cũng cố gắng tạo ra một nền tảng tính toán đám mây để tất cả các tổ chức có thể chia sẻ nguồn dữ liệu khoa học này, phục vụ cho phát triển.

Các tổ chức học thuật quốc tế cũng đưa ra nguồn dữ liệu mở rất rộng và lớn. Ví dụ như lod-cloud cũng đưa lên 1301 bộ dữ liệu với hơn 16.000 liên kết. Các nguồn dữ liệu mở này là nguồn tài nguyên quý giá cho các ứng dụng nói chung và ứng dụng trí tuệ nhân tạo nói riêng.
Đối với Việt Nam, chúng ta cần một văn hóa chia sẻ dữ liệu mở. Các dự án nghiên cứu thực hiện bằng ngân sách nhà nước cũng nên công khai nguồn dữ liệu đó ra cho toàn dân, vì đó là ngân sách công, toàn dân có nhu cầu và có quyền trong việc tiếp cận nguồn dữ liệu đó.

Lược ghi ý kiến TS Võ Sỹ Nam