Chủ nghĩa dữ liệu lên ngôi
Rất nhiều học giả khoa học xã hội tin rằng nhờ dữ liệu lớn, đối tượng nghiên cứu vốn khó nắm bắt của mình sẽ khách quan và rõ ràng vượt bậc so với trước. Các cuốn sách xã hội học như “Sự kết thúc đối với khủng hoảng của xã hội học thực nghiệm” của Linda McKie và Louise Ryan đang là sản phẩm ăn khách, giúp “chủ nghĩa dữ liệu” chiếm ưu thế. Nhiều chuyên gia tuyên bố, việc phân tích dữ liệu lớn sẽ cho phép con người nhìn thấy rõ chính mình trong sương mù.
“Với dữ liệu lớn, ngày nay chúng ta có thể bắt đầu thực sự nhìn thấy các chi tiết của tương tác xã hội và cách mà chúng diễn ra. Không lâu nữa, điều đó sẽ không còn giới hạn ở chỉ số thị trường hay kết quả bầu cử. Đây là một sự thay đổi đáng kinh ngạc” - Giáo sư (GS) Sandy Pentland - chuyên gia hàng đầu về khoa học dữ liệu tại Viện Công nghệ Massachusetts, Mỹ - nói trên Edge.org.
Pentland còn có tham vọng tái phát minh xã hội loài người trên nền tảng dữ liệu lớn. Ông tin rằng với khoa học dữ liệu, người ta có thể hiểu được các hệ thống vận hành của con người để tạo ra hệ thống xã hội tương lai một cách ổn định, an toàn. Nhờ đó, các hệ thống tài chính không bị rối loạn, chính phủ không bị tê liệt và hệ thống y tế sẽ thực sự làm việc hiệu quả.
Một trung tâm dữ liệu lớn của Google. Ảnh: Techacute.com
“Khả năng nhìn thấy chi tiết về thị trường, về các cuộc cách mạng chính trị, khả năng tiên đoán hay điều khiển chúng với sức mạnh như ngọn lửa của Prometheus có thể được sử dụng cho mục đích tốt hay xấu. Và như thế, dữ liệu lớn sẽ đem đến một thời đại thú vị. Chúng ta sẽ đi tới việc tái phát minh những gì cần thiết để có một xã hội loài người” - GS Sandy Pentland cho biết.
Không đủ đảm bảo tính khách quan
Tuy nhiên, một số chuyên gia cho rằng đối với khoa học xã hội, dữ liệu lớn là một thần tượng sai lầm. Đối lập với việc sử dụng dữ liệu lớn trong các ngành khoa học nặng, việc ứng dụng nó trong lĩnh vực kinh tế, chính trị và xã hội sẽ không làm cho nhận thức về các lĩnh vực này được rõ ràng hơn hay giúp tình hình ổn định hơn. Theo họ, đúng là khoa học dữ liệu cho phép xử lý một khối lượng lớn thông tin thô. T
uy nhiên, nó sẽ ít hoặc hầu như không làm thay đổi tính chủ quan của các khái niệm được sử dụng để phân chia thông tin thô này với các đối tượng và mối quan hệ được nghiên cứu. Lý do là các khái niệm trong khoa học xã hội - như “chiến tranh” hay “người lớn” - được xây dựng và biến đổi bởi các định nghĩa về chúng trong các xã hội hay nhóm được tuyên truyền.
Một phân tích mới đây đã cho thấy các hệ thống được sử dụng để xây dựng cơ sở dữ liệu sâu về các sự kiện quan trọng - gồm hệ thống thuộc Icews của Lockheed Martin, Gdelt của Đại học Georgetown, Spesd của Đại học Illinois và GSR của Tập đoàn Mitre - không đưa ra được các dữ liệu đại diện và thống nhất về sự kiện biểu tình ở Mỹ Latinh. Nguyên nhân là chúng không thống nhất được khái niệm “biểu tình” cần hiểu theo nghĩa chính trị hay chỉ là sự phản đối, xung đột giữa những người hàng xóm với nhau.
“Lý do khiến các hệ thống trên phân loại khác nhau không phải vì sai sót kỹ thuật trong mã hóa mà vì người ta có quan niệm khác nhau về các phạm trù xã hội” - trích báo cáo phân tích các hệ thống dữ liệu trên Techcrunch. Nói cách khác, chỉ riêng các hệ thống dữ liệu lớn sẽ không đủ đảm bảo sự tái lập và tính khách quan của nghiên cứu xã hội, vì các nghiên cứu này phải sử dụng thường xuyên các khái niệm xã hội gây tranh cãi để có thể đọc các dữ liệu thu thập.
Ngay cả khi đã quyết định những đối tượng và sự kiện nào cần để thu thập dữ liệu mang ý nghĩa đại diện thì đó cũng là một công đoạn đưa tính chủ quan, thiên vị vào trong cấu trúc xã hội thực tiễn của người nghiên cứu.
“Dữ liệu lớn dường như sẽ không đem lại thay đổi căn bản đối với nghiên cứu xã hội. Phải thừa nhận nó sẽ cải thiện tính tin cậy tương đối của các mô hình nghiên cứu kinh tế, chính trị và xã hội học, khi chúng dựa trên các lý thuyết quan tâm tới xã hội và chính trị. Sự cải thiện đó sẽ nằm ở vấn đề mức độ tin cậy chứ không phải một loại mới. Khả năng phân chia các mô hình riêng biệt sẽ không bị xóa nhòa, vì thế tính chính xác của mỗi mô hình chỉ là tương đối so với các khái niệm đã sản sinh ra nó và sẽ luôn có sự đụng độ với các mô hình phân tích khác” - trích bài phân tích trên Techcrunch.