Startup AI thường bị mắc kẹt giữa nhu cầu dữ liệu và thách thức trong việc thu thập, buộc họ phải tìm những giải pháp sáng tạo để phát triển sản phẩm hiệu quả hơn.

Bác sĩ sử dụng hệ thống AI chẩn đoán hình ảnh của VinBrain để hỗ trợ điều trị. Ảnh: VinBrain
Bác sĩ sử dụng hệ thống AI chẩn đoán hình ảnh của VinBrain để hỗ trợ điều trị. Ảnh: VinBrain
Có một tình huống khá trớ trêu đối với các startup AI là mô hình của họ cần được huấn luyện trên những tập dữ liệu chất lượng cao để hoạt động hiệu quả, nhưng để có dữ liệu đó, startup thường phải có sẵn một sản phẩm khả thi đóng vai trò như đường ống thu thập dữ liệu.

Điều này tạo ra vòng luẩn quẩn: nếu không có dữ liệu đáng tin cậy, startup AI khó lòng cải thiện độ chính xác và xây dựng uy tín. Nhưng nếu sản phẩm chưa đủ chính xác, người dùng sẽ không muốn thử nghiệm sản phẩm, khiến cho việc thu thập dữ liệu càng rơi vào bế tắc.

Vấn đề trở nên đặc biệt phức tạp trong các mô hình phụ thuộc vào dữ liệu từ các nền tảng truyền thông xã hội và các tương tác do người dùng tạo ra, chẳng hạn như Facebook, Youtube, Zalo v.v. Mặc dù các nền tảng mạng xã hội có một lượng lớn nội dung công khai mà ai cũng có thể truy cập mà không cần xin phép đặc biệt, nhưng việc tự động thu thập thông tin (scraping) lại thường bị cấm theo các điều khoản dịch vụ của nền tảng. Điều này tạo ra khó khăn cho các công ty khởi nghiệp khi muốn khai thác nguồn dữ liệu khổng lồ này.

Hãy tưởng tượng bạn muốn phát triển một ứng dụng mới để phân tích những gì mọi người nói về một chủ đề cụ thể trên Facebook, nhằm dự báo sự lan truyền thông tin trên mạng, phục vụ cho các chiến dịch marketing hoặc xử lý khủng hoảng truyền thông. Bạn thấy trên Facebook có rất nhiều bài viết công khai về chủ đề này. Tuy nhiên, Facebook không cho phép bạn dùng các công cụ tự động để “cào” hết những bài viết đó về để phân tích. Nếu cố tình làm vậy, Facebook có thể kiện bạn.

Trong những năm gần đây, các vụ kiện nhằm vào các công ty thu thập dữ liệu, như tranh chấp giữa LinkedIn và hiQ Labs năm 2019 hay vụ kiện của tờ New York Times đối với OpenAI hiện nay, đã làm nổi bật những rủi ro xoay quanh việc thu thập dữ liệu từ Internet, đặc biệt là ranh giới mong manh giữa dữ liệu công khai và các quyền riêng tư cá nhân, bản quyền v.v

Tìm kiếm giải pháp thay thế


Dữ liệu là "xăng" của nhiều startup công nghệ. Nhìn chung, ngành công nghiệp AI đã đi theo hướng tận dụng các nguồn dữ liệu miễn phí khi huấn luyện AI của mình, dựa trên giả định rằng việc xử lý dữ liệu từ web công khai để tạo câu trả lời cho AI hợp pháp. Tuy nhiên, quy định về vấn đề này đang chưa rõ ràng.

Do vậy, các startup cần phải tìm thêm những cách khác nhau để xây dựng bộ dữ liệu mà không vi phạm các nguyên tắc đạo đức, pháp luật. Một số cách tiếp cận có thể bao gồm thu thập dữ liệu từ các nguồn công khai hợp pháp, mua dữ liệu, tạo dữ liệu tổng hợp, hoặc thiết lập các thỏa thuận hợp tác với khách hàng/người dùng để có được dữ liệu một cách minh bạch.

Các nguồn dữ liệu công khai hợp pháp thường là điểm tìm kiếm đầu tiên của startup. Có thể kể đến các nguồn như dữ liệu mở, dữ liệu cộng đồng được cấp phép Creative Commons, dữ liệu từ cổng dữ liệu quốc gia, v.v

Tại Việt Nam, các nguồn dữ liệu công khai này không thể nói là không có nhưng startup lại không dễ tiếp cận. Lý do một phần bởi cơ sở hạ tầng dữ liệu của Việt Nam chưa hoàn thiện, thiếu các trung tâm dữ liệu lớn, nhưng phần khác nằm ở việc thiếu vắng văn hóa chia sẻ dữ liệu chung: các tổ chức, cơ quan vẫn cát cứ dữ liệu và đưa ra những điều kiện truy cập nghiêm ngặt trong mọi tình huống, trong khi quy định pháp lý về quyền sở hữu, trách nhiệm pháp lý, quyền riêng tư, cũng như bảo mật dữ liệu chưa thực sự rõ ràng.

Chẳng hạn, cổng dữ liệu quốc gia (data.gov.vn) báo cáo có khoảng 10.605 tập dữ liệu có thể tải xuống hoặc kết nối API, nhưng khi kiểm tra sẽ thấy “nhiều danh mục có nội dung sơ sài và chỉ cập nhật đến năm 2020, không đủ để startup phát triển mô hình AI”, một startup công nghệ Edtech có trụ sở ở TP.HCM nói với chúng tôi như vậy hồi năm ngoái. Tương tự, một nhóm các nhà nghiên cứu tại Đại học Quốc gia Hà Nội tiết lộ rằng họ đang phát triển các mô hình AI dự báo ô nhiễm không khí trên toàn Việt Nam, nhưng phải sử dụng dữ liệu mở từ Tổ chức Khí tượng Thế giới (WMO) do chưa thể tiếp cận được các bộ dữ liệu khí tượng thủy văn của quốc gia.

Mua dữ liệu có sẵn là một lựa chọn khác để thu thập thông tin. Mặc dù không thể tùy chỉnh, nhưng các bộ dữ liệu này có thể đáp ứng tới 70-80% yêu cầu của dự án một cách nhanh chóng và giá cả phải chăng. Tuy nhiên, phương pháp này cũng đi kèm với một số khó khăn.

Thứ nhất, thị trường có thể thiếu dữ liệu mà các startup cần vì chưa ai chú trọng đến phân khúc này. Ví dụ, nếu làm bảo hiểm vụ mùa cho sầu riêng ở Tây Nguyên, gần như sẽ không có dữ liệu lớn về các vụ mùa trước hoặc thói quen canh tác của người dân địa phương. Thứ hai, dữ liệu đôi khi không phù hợp với mục đích sử dụng, tức là không thể đáp ứng các yêu cầu cụ thể của mô hình. Cuối cùng, chất lượng dữ liệu đặc thù có thể kém, vìthiếu các công ty thu thập dữ liệu chuyên nghiệp làm việc này cho thị trường Việt Nam. Trong khi đó, hầu hết các tổ chức, doanh nghiệp có dữ liệu ở Việt Nam vẫn đang trong quá trình chuyển đổi số, do đó họ thường thiếu các quy trình quản lý dữ liệu hiệu quả, khiến dữ liệu trở nên không đồng nhất và dễ bị lỗi. Ngoài ra, nhiều bộ dữ liệu có sẵn trên thị trường thường thiếu sự đa dạng, hoặc không thể phản ánh đầy đủ các yếu tố phức tạp trong hiện thực mà các hệ thống AI cần để đưa ra dự đoán chính xác.

Tạo dữ liệu tổng hợp cũng là một phương án mà startup AI thường tìm đến. Đây là quá trình tạo ra dữ liệu “giả” nhưng có đặc điểm thống kê và cấu trúc tương tự như dữ liệu thật. Mặc dù cách tiếp cận này không thay thế trực tiếp được cho dữ liệu thực, nhưng nó có thể giúp cải thiện hiệu quả của mô hình trong những tình huống mà dữ liệu thật khó thu thập, tốn kém hoặc nhạy cảm về quyền riêng tư.

Có nhiều phương pháp khác nhau để tạo dữ liệu tổng hợp, từ các kỹ thuật thống kê đơn giản (ví dụ sử dụng phân phối Gaussian để tạo ra các giá trị số, hoặc mô hình Markov để tạo chuỗi sự kiện) đến các mô hình học sâu phức tạp như Mạng đối nghịch sinh (GANs), Bộ tự mã hóa biến phân (VAEs) và Mô hình khuếch tán (Diffusion Models). Tuy nhiên, một trong những rủi ro chính của việc sử dụng dữ liệu nhân tạo là không phải lúc nào nó cũng thể hiện hoàn hảo các kịch bản trong thế giới thực. Nếu mô hình tạo dữ liệu có những thiên kiến hoặc sai lệch, điều này có thể bị truyền sang dữ liệu huấn luyện mà nó tạo ra, dẫn đến mô hình AI có thể hoạt động tốt với dữ liệu tổng hợp nhưng sẽ hoạt động kém khi đối mặt với dữ liệu thực tế. Hiện tượng này trong giới kỹ thuật gọi là quá khớp (Overfitting).

Đối mặt với những hạn chế kể trên, một số startup AI bắt đầu tính đến việc sử dụng dữ liệu do người dùng gửi như một giải pháp tiềm năng. Phương pháp này liên quan đến việc tạo ra một hệ thống, trong đó các cá nhân tự nguyện cung cấp dữ liệu về trải nghiệm và tương tác của họ, giúp xây dựng một bộ dữ liệu chất lượng cao trước khi sản phẩm chính thức ra mắt.

Tuy nhiên, không dễ để thuyết phục người dùng đóng góp dữ liệu khi chưa có sẵn nền tảng. Do vậy, các startup thường áp dụng một số chiến lược khuyến khích để thu hút và giữ chân người dùng, đồng thời mang lại cho họ những lợi ích đặc biệt khi đóng góp vào sự phát triển của sản phẩm. Chẳng hạn, startup có thể cho người dùng ban đầu dùng thử miễn phí hoặc giảm giá mạnh sản phẩm; cung cấp quyền truy cập sớm vào các tính năng cao cấp trước khi ra mắt công chúng; trao huy hiệu chứng nhận cho những người dùng đầu tiên nhằm tăng độ uy tín của người dùng đó trong cộng đồng; cung cấp các báo cáo chuyên sâu dựa trên dữ liệu AI để mang lại giá trị thông tin đặc biệt cho người dùng, hoặc áp dụng mô hình game hóa (gamification) với các phần thưởng hấp dẫn để thúc đẩy sự tương tác và tham gia của người dùng.

Enfarm là một ví dụ tiêu biểu cho việc thu thập dữ liệu đồng thời cung cấp giá trị cho người dùng. Công ty khởi nghiệp này vừa dùng cảm biến để đo trực tiếp nồng độ dinh dưỡng trong đất, vừa dùng AI để phân tích dữ liệu thu về, từ đó đưa ra các khuyến nghị giúp bà con nông dân giảm lượng phân bón sử dụng. Mặc dù những cách làm này có thể giúp startup thu thập được 50-100 bảng ghi dữ liệu chất lượng cao, nhưng việc mở rộng quy mô người dùng để đạt được một bộ dữ liệu đủ lớn, có ý nghĩa thống kê vẫn luôn là một thách thức.

Một khía cạnh độc đáo của việc tận dụng dữ liệu do người dùng cung cấp là hợp tác trực tiếp với đối tác cần xây dựng giải pháp AI để khai thác nguồn dữ liệu nội bộ của họ. Mô hình này phù hợp với các startup theo đuổi chiến lược kinh doanh B2B. Ví dụ, VinBrain hợp tác với các bệnh viện để thu thập gần hai triệu ảnh X-quang đã được bác sĩ chuyên môn gán nhãn. Từ đó, họ phát triển phần mềm AI có thể phát hiện nhanh chóng và chính xác các dấu hiệu bất thường về tim, phổi, xương trong vài giây, giúp bác sĩ chẩn đoán hiệu quả hơn.

Nói chung, đối với bất kỳ công ty khởi nghiệp dựa trên AI nào, thách thức lớn nhất là cân bằng giữa việc tiếp cận dữ liệu, tối ưu hóa hiệu quả mô hình và tuân thủ các quy định pháp lý, đạo đức về dữ liệu.

Tuy nhiên, sau tất cả, câu chuyện của startup AI không chỉ xoay quanh câu hỏi “Tìm dữ liệu ở đâu?” mà còn đi xa hơn, như Ben Hamner, Giám đốc Công nghệ của Kaggle, từng nói: “Phần khó nhất của khoa học dữ liệu không phải là xây dựng một mô hình chính xác hay thu thập dữ liệu sạch và chất lượng, mà là xác định đúng vấn đề cần giải quyết và tìm ra cách đo lường giải pháp một cách hợp lý.”

Bài đăng KH&PT số 1338 (số 14/2025)