Khi đánh giá big data trong bối cảnh của các vấn đề xã hội, các nhà khoa học đã rút ra một kết luận: Đối với hầu hết các vấn đề xã hội đều không có dữ liệu lớn.



Khi nói đến các vấn đề xã hội, phần nhiều dữ liệu không có cấu trúc và thường giới hạn ở các con số, thay vì các loại dữ liệu khác. Lấy ví dụ, vấn đề buôn bán người với ước tính khoảng 30 triệu người bị buôn bán mỗi năm. Mặc dù động lực giải quyết vấn đề này rất cấp thiết, nhưng có rất ít chương trình sử dụng dữ liệu lớn để giải quyết vấn đề này. Trong khi đó, ngày càng có nhiều kẻ buôn người sử dụng điện thoại di động, phương tiện truyền thông xã hội, rao vặt trực tuyến và các nền tảng Internet khác. Dữ liệu từ các công nghệ này có thể được thu thập và sử dụng để xác định, theo dõi và truy tố những kẻ buôn người. Nhưng có một sự thật là: Bản chất bất hợp pháp của nạn buôn người làm cho việc thu thập dữ liệu sơ cấp trở nên khó khăn, dữ liệu sơ cấp thu thập từ một số tổ chức có thể không đáng tin cậy và thiếu các chỉ số đáng tin cậy để đo lường thành công của các chương trình và chính sách chống buôn bán. Hơn nữa, hầu hết thông tin thu thập được về nạn buôn người được lưu trữ theo tinh thần đáp ứng với nhu cầu của tổ chức, chứ chưa phải là nhu cầu toàn cầu. Vì vấn đề bảo mật và an toàn dữ liệu, dữ liệu được lưu giữ bởi các tổ chức khác nhau hiếm khi được chia sẻ dưới dạng thô, làm hạn chế tạo ra những bộ dữ liệu lớn mang tầm toàn cầu. Thêm vào đó là tình trạng cạnh tranh giữa các tổ chức chống vấn nạn buôn người. Ví dụ, Dự án Polaris hoạt động chống nạn buôn người bằng cách sử dụng một hướng tiếp cận toàn diện kết hợp giữa vận động, dịch vụ khách hàng, đào tạo và hỗ trợ kỹ thuật, các chương trình toàn cầu và đường dây nóng quốc gia. Từ 2003 tới 2006, Polaris đã cung cấp các đường dây nóng cho những nạn nhân buôn người. Năm 2007, Bộ Y tế và Dịch vụ Nhân sinh Hoa Kỳ đã chọn Polaris là đường dây nóng quốc gia đầu tiên. Trong những năm qua, Polaris được cho là đã nhận hơn 75.000 cuộc gọi. Tuy nhiên, truy cập vào dữ liệu vẫn bị hạn chế và chưa xác định được độ tin cậy và nguồn của những cuộc gọi này. Nếu thông tin của Polaris được công khai và tích hợp với các nguồn dữ liệu khác, chẳng hạn như các chỉ số kinh tế, lộ trình vận chuyển, thống kê giáo dục và các dịch vụ cứu nạn. Chỉ khi dữ liệu được tập hợp với các dữ liệu khác, được phân tích, trực quan hóa và có thể tiếp cận được với các bên liên quan thì cơ sở dữ liệu đó mới thực sự có giá trị. Chỉ khi đó, dữ liệu nhỏ mới có cơ hội phát triển thành dữ liệu lớn và giúp con người chống lại nạn buôn bán người một cách hiệu quả.

Một dấu hiệu lạc quan là vào năm 2012, Google đã tài trợ cho Polaris và hai tổ chức chống buôn người quốc tế khác 3 triệu USD để tổng hợp dữ liệu được thu thập từ ba đường dây nóng của họ và mở rộng đường dây nóng của họ thành đường dây nóng quốc tế. Hợp tác với nhau, cả ba tổ chức đã hình thành nên “Mạng lưới đường dây nóng chống buôn bán người toàn cầu”.

Những rào cản

Có bốn lý do chính cho việc tương đối thiếu dữ liệu lớn có cấu trúc đối với các vấn đề xã hội: Dữ liệu bị “chôn” trong hệ thống hành chính, thiếu các tiêu chuẩn quản trị dữ liệu, dữ liệu thường không đáng tin cậy, và dữ liệu có thể gây hậu quả không lường được.

Dữ liệu bị “chôn” trong hệ thống hành chính: Hầu hết các tổ chức thu thập dữ liệu để đáp ứng với nhu cầu hoạt động và những dữ liệu đó thường được lưu trong hệ thống quản trị của tổ chức. Để khắc phục vấn đề này, các tổ chức đang cố gắng tìm cách xây dựng các tập dữ liệu lớn có thể được sử dụng rộng rãi hơn. Ví dụ, với ngành công nghiệp chăm sóc sức khỏe của Mỹ, quản lý dữ liệu lớn không hiệu quả đã khiến chi phí tốn từ 100 tỷ USD đến 150 tỷ USD cho chi phí hành chính một năm. Viện Toàn cầu McKinsey ước tính rằng nếu ngành công nghiệp này chuyển đổi việc sử dụng dữ liệu lớn đạ hiệu quả và chất lượng cao hơn, thì ngành này có thể tạo ra hơn 300 tỷ đô la giá trị mỗi năm.

Thiếu tiêu chuẩn quản trị dữ liệu: Thách thức thứ hai đối với việc sử dụng dữ liệu lớn giải quyết các vấn đề xã hội đó là thiếu các tiêu chuẩn quản trị dữ liệu thích hợp, có khả năng xác định cách thu thập, lưu trữ và lựa chọn để giải trình dữ liệu. Kết quả là, tồn tại những mâu thuẫn lớn và dữ liệu được thu được thường không phù hợp để phân tích. Trong nhiều trường hợp, dữ liệu cần phải được chuyển đổi trước khi có thể sử dụng và việc chuyển đổi gây tốn kém. Các nhà phân tích thường rất vất vả với việc tích hợp các tập dữ liệu khác nhau vì họ thiếu metadata (siêu dữ liệu: dữ liệu mô tả về dữ liệu) tốt và chất lượng dữ liệu kém. Một ví dụ về khó khăn này là Sáng kiến “data.gov” năm 2009 của chính phủ Mỹ, với mục đích công khai rất nhiều dữ liệu của sáng kiến để các tổ chức phi lợi nhuận, doanh nghiệp và những cơ quan khác có thể sử dụng dữ liệu cho những mục đích sáng tạo. Sáng kiến này gặp trở ngại bởi rất khó đảm bảo rằng dữ liệu ở định dạng có thể sử dụng được. Chất lượng dữ liệu giữa các cơ quan khác nhau rất nhiều, với một số cơ quan, ví dụ như Cục Bảo vệ Môi trường thường xuyên phát hành dữ liệu ở định dạng có thể đọc được bằng máy, trong khi các cơ quan khác xuất bản dữ liệu ở các biểu mẫu khó thao tác như PDF hoặc định dạng tệp cũ hơn.

Dữ liệu thường không đáng tin cậy: Dữ liệu dồi dào mang lại những cơ hội tuyệt vời để các nhà nghiên cứu cố gắng tìm hiểu và giải quyết các vấn đề xã hội, nhưng tiếc là phần lớn dữ liệu không đáng tin cậy. Có nhiều dữ liệu không có nghĩa là có nhiều dữ liệu tiêu biểu và có độ tin cậy. Ví dụ, năm 2011, chính quyền Obama đề xuất Dự án đường ống dẫn Keystone XL để vận chuyển dầu cát từ Alberta, Canada, đến Texas. Dự án này gây ra rất nhiều mối lo ngại cho các chủ đất, nông dân, chủ trang trại và các nhà hoạt động môi trường sống ở vùng lân cận của đường ống. Mặc dù vậy, Viện Dầu khí Mỹ và các đồng minh vận động hành lang của họ đã thao túng dư luận xã hội để ủng hộ dự án. Họ thao túng bằng cách sử dụng Twitter gửi rất nhiều đoạn tweets ủng hộ cho dự án, việc này không thể hiện chính xác quan điểm chung của công chúng. Mạng lưới Hành động Rainforest (RAN) đã phát hiện ra sự gian lận này và chỉ trích các công ty dầu mỏ sử dụng các tài khoản Twitter giả để thể hiện sự ủng hộ cho dự án.

Dữ liệu có thể gây ra hậu quả ngoài ý muốn: Người dùng Big data có thể phải đối mặt với những hậu quả ngoài ý muốn từ việc khai thác dữ liệu lớn mà không quan tâm đến chất lượng dữ liệu, tính hợp pháp, ý nghĩa dữ liệu khác nhau và chất lượng xử lý. Ví dụ về trường hợp một tờ báo ở New York bị kiểm soát do công bố thông tin về các chủ sở hữu súng. Sau vụ thảm sát bằng súng ở trường học bang Connecticut, một nhóm các nhà báo của tờ The Journal News đã sử dụng Đạo luật Tự do Thông tin để lấy thông tin về các chủ sở hữu súng sống ở ngoại ô Westchester, Rockland và Putnam. Nhóm nhà báo đã đăng một bài báo về các chủ sở hữu súng được cấp phép sống trong khu phố và cung cấp một bản đồ trực quan về tên và địa chỉ của các chủ sở hữu súng cá nhân. Thông tin này đã được công bố để thông báo cho công chúng về những người sở hữu vũ khí, nhưng đồng thời thông tin này cũng giúp cho bọn tội phạm nhắm vào những chủ nhà không sở hữu súng để tấn công hoặc nhắm vào chủ nhà có súng để cướp súng.

(Đón đọc kỳ 3: Làm sao thúc đẩy sử dụng hiệu quả dữ liệu lớn?)