Facebook đồng ý chia sẻ dữ liệu với các nhà khoa học xã hội nhưng đến nay, bộ dữ liệu mà các nhà khoa học nhận được không phải là bộ dữ liệu đầy đủ như được hứa hẹn lúc đầu.

Sau vụ bê bối Cambridge Analytica năm ngoái, một sáng kiến nghiên cứu do tám tổ chức từ thiện tài trợ đã được thiết kế để cho phép các nhà khoa học độc lập truy cập dữ liệu của Facebook. Các nhóm nghiên cứu được chọn bởi Hội đồng nghiên cứu khoa học xã hội Mỹ và Social Science One - sáng kiến hợp tác giữa các nhà khoa học và khu vực tư nhân và là đối tác với Đại học Harvard.

Chương trình này có thể tạo tiền lệ cho việc các nhà khoa học xã hội làm việc với các công ty để truy cập thông tin truyền thông mạng xã hội - luồng thông tin đang trở nên ngày càng mạnh trong việc định hình những diễn ngôn công cộng. Tuy nhiên sáng kiến này mới đây đã gặp phải một trở ngại lớn về quyền riêng tư.

Mark Zuckerberg phải đối mặt với các câu hỏi về quyền riêng tư và thông tin sai lệch dữ liệu trong các phiên điều trần trước Quốc hội Hoa Kỳ vào tháng 4 năm 2018.

Mục tiêu của sáng kiến là cho phép các nhà khoa học nghiên cứu cách truyền thông xã hội ảnh hưởng đến các nền dân chủ - và thiết lập một mô hình hợp tác cho phép các nhà khoa học tận dụng lợi thế của các công ty công nghệ lớn như Facebook. Nhưng các nhà tài trợ ủng hộ sáng kiến đang xem xét việc ngừng hỗ trợ các dự án, vì Facebook không thể cung cấp cho các nhà nghiên cứu tất cả dữ liệu mà họ đã hứa do các vấn đề quyền riêng tư, và không rõ khi nào Facebook có thể cung cấp các dữ liệu này.

Các nhà khoa học ngày càng muốn có được dữ liệu từ những người khổng lồ công nghệ, như Facebook, để tiến hành các phân tích độc lập. Ngày càng có nhiều lo ngại về ảnh hưởng của thông tin sai lệch lưu hành trên các trang web truyền thông xã hội và gây ra các quá trình chính trị trên toàn thế giới. Sáng kiến nghiên cứu có trụ sở tại Hoa Kỳ - ra mắt với sự hợp tác của Facebook vào tháng 7 năm ngoái sau vụ bê bối Cambridge Analytica - đã tài trợ cho 12 dự án được thiết kế để điều tra các chủ đề như truyền bá tin tức giả và cách sử dụng phương tiện truyền thông xã hội trong các cuộc bầu cử gần đây ở Ý, Chile và Đức. Facebook không tham gia vào việc lựa chọn dự án nào nhận tài trợ.

Dự án nghiên cứu ở Đức, do Simon Hegelich, nhà khoa học dữ liệu chính trị tại Đại học Kỹ thuật Munich, dẫn đầu nghiên cứu việc lan truyền thông tin sai trong cuộc tổng tuyển cử năm 2017 ở Đức, sử dụng dữ liệu từ Facebook và Twitter. Nhóm sẽ có quyền truy cập dữ liệu của Facebook để xác định phạm vi chiến dịch lan truyền thông tin sai đã diễn ra ở Đức. Hegelich và các đồng nghiệp cũng cố gắng xác định có bao nhiêu người đã chia sẻ các liên kết mà những tài khoản đó đăng tải, cũng như giới tính, độ tuổi của người dùng.

Dự án ở Chile cũng rất được kỳ vọng, vì những bằng chứng về lan truyền thông tin sai trên mạng xã hội trước đây có được chủ yếu là về Hoa Kỳ và chưa chắc đã đúng với các quốc gia Mỹ Latinh.

Nhưng vấn đề với dữ liệu nhanh chóng xuất hiện: Facebook có thể chia sẻ một số thông tin với các nhà nghiên cứu, nhưng việc cung cấp cho họ dữ liệu nhạy cảm và chi tiết hơn mà không ảnh hưởng đến quyền riêng tư của người dùng tỏ ra khó khăn hơn về mặt kỹ thuật so với dự kiến của ban tổ chức.

Tháng trước, 8 nhà tài trợ - cho đến nay đã cung cấp tổng cộng 600.000 USD cho chương trình này, chương trình có tên gọi Tài trợ nghiên cứu dân chủ và truyền thông xã hội - đã gia hạn cho Facebook đến ngày 30 tháng 9 để cung cấp bộ dữ liệu đầy đủ hoặc cho biết họ sẽ bắt đầu chấm dứt chương trình.

Họ nói rằng việc tài trợ là không thực tế trong khi không ai biết khi nào mới có dữ liệu cần thiết để nghiên cứu. Cấu trúc chương trình - bao gồm các cơ quan riêng biệt để giám sát các khoản tài trợ và cung cấp quyền truy cập vào dữ liệu - cũng tỏ ra quá phức tạp, theo ông Larry Kramer, chủ tịch của một trong những tổ chức từ thiện đang tài trợ, Quỹ Hewlett ở Menlo Park, California.

Sau tuyên bố của các nhà tài trợ, Facebook đã cung cấp thêm một bộ dữ liệu, nhưng vẫn không phải là dữ liệu đầy đủ như được hứa hẹn lúc đầu. Bây giờ thời hạn đã trôi qua, Quỹ Hewlett nói rằng họ đang làm việc với các đối tác để đánh giá các bước tiếp theo cho sáng kiến này và để xác định những đề xuất nghiên cứu nào được phê duyệt ban đầu có thể tiếp tục được thực hiện. Các nhà nghiên cứu đã nhận được tiền sẽ không bị yêu cầu trả lại, và những nhóm có thể hoàn thành nghiên cứu của họ với bộ dữ liệu hạn chế thì vẫn sẽ tiếp tục nhận được tài trợ, các tổ chức từ thiện cho biết.

Các đối tác khác liên quan đến dự án - và đã dành một năm làm việc với Facebook về các giải pháp chia sẻ dữ liệu - cho biết họ đang tiếp tục nỗ lực xây dựng cơ sở hạ tầng máy tính cho phép công ty chia sẻ dữ liệu của mình với các nhà nghiên cứu, bất kể các nhà tài trợ quyết định thế nào.

Gary King, nhà khoa học xã hội tại Đại học Harvard, Cambridge, Massachusetts và đồng sáng lập Social Science One, cho biết, các đối tác sẽ tiếp tục cung cấp các bộ dữ liệu trong vài tuần tới và Facebook có hơn 30 người làm việc trong dự án này. Các học giả đã thành lập tổ chức phi lợi nhuận Social Science One ngay từ đầu chương trình để hoạt động như một nhà môi giới dữ liệu giữa Facebook và các nhà nghiên cứu trong sáng kiến, cũng như các dự án tương lai.

"Để tìm hiểu về các xã hội, chúng ta phải đi đến nơi có dữ liệu", King nói. Mặc dù dữ liệu khoa học xã hội đang tồn tại nhiều hơn bao giờ hết, hầu hết đều bị ràng buộc trong các công ty và các nhà nghiên cứu không thể tiếp cận được, ông nói thêm.

King cũng lưu ý rằng mô hình mà nhóm của anh đang triển khai vẫn là mô hình hợp lý duy nhất cho sự hợp tác trong tương lai với các đại gia công nghệ khác, và cần phải giải quyết vấn đề làm thế nào để lấy dữ liệu hữu ích ra khỏi các công ty trong khi duy trì quyền riêng tư của người dùng.

Phát ngôn viên của Facebook nói với Nature: "Đây là một trong những liên kết lớn nhất từng được tạo ra với nghiên cứu học thuật về chủ đề này. Chúng tôi đang nỗ lực cung cấp các thông tin nhân khẩu học trong khi bảo vệ quyền riêng tư của từng người".

Thiếu dữ liệu

Vướng mắc bây giờ là số lượng và loại thông tin mà Facebook có thể cung cấp cho các nhà nghiên cứu bên ngoài.

Ví dụ, các bộ dữ liệu đã được cung cấp bao gồm 32 triệu liên kết hoặc URL, các liên kết này đã được chia sẻ kể từ ngày 1 tháng 1 năm 2017 bởi ít nhất 100 người dùng ở chế độ công cộng. Các liên kết này bao gồm một số thông tin có giá trị, chẳng hạn như xếp hạng độ tin cậy của đường dẫn được ghi nhận bởi các trang web kiểm tra bên thứ ba.

Nhưng Facebook trước đây đã hứa sẽ cung cấp cho các nhà nghiên cứu quyền truy cập vào các URL được chia sẻ công khai chỉ một lần, và quyền truy cập vào phạm vi dữ liệu nhân khẩu học rộng hơn về người dùng. Đây là bộ dữ liệu lớn hơn với khoảng một tỷ liên kết và sẽ bao gồm những liên kết được chia sẻ ở chế độ riêng tư, theo Simon Hegelich. Bởi vì tin tức giả có xu hướng lưu hành trong các liên kết được chia sẻ riêng tư, dữ liệu về thông tin chia sẻ công cộng không phải là một đại diện tốt cho việc lan truyền thông tin sai lệch nói chung, Hegelich nói. "Ấn tượng của tôi là, ít nhất là đối với dự án của chúng tôi, dữ liệu mà Facebook đang cung cấp ít nhiều vô dụng", anh ấy nói thêm.

Nhưng các nhà khoa học khác được trong chương trình nói rằng dữ liệu đã được cung cấp là chưa từng có và sẽ cho phép họ đạt được ít nhất một số mục tiêu nghiên cứu.

"Kết quả từ sáng kiến này rất hứa hẹn", Magdalena Saldaña, nhà khoa học xã hội tại Đại học Công giáo Chile ở Santiago, nói. Nhóm của cô đang kiểm tra cách người dùng Facebook sử dụng thông tin sai lệch và các đặc điểm chung của nhóm người dùng này trong chiến dịch bầu cử tổng thống Chile năm 2017. Mặc dù còn hạn chế, ví dụ như chưa thể nghiên cứu hồ sơ nhân khẩu học của những người dùng có xu hướng tiếp xúc với thông tin sai lệch, họ vẫn có thể ước tính lượng tin tức giả được chia sẻ, cô nói.

Những người ủng hộ ứng cử viên tổng thống Sebastian Piñera (Chile) trong một cuộc họp mặt bầu cử năm 2017.

Đối tác đáng tin cậy

Facebook cũng tự nghiên cứu về tác động của thông tin được chia sẻ trên nền tảng của mình. Nhưng các học giả muốn thực hiện các nghiên cứu riêng của họ mà không phải chịu sự kiểm soát của công ty. Đây là một vấn đề vì người dùng Facebook chỉ cho phép chính Facebook xử lý dữ liệu của họ, chứ không phải bởi các bên thứ ba độc lập. Giải pháp là thành lập một nhà môi giới dữ liệu - Social Science One - để phục vụ như một bên thứ ba đáng tin cậy. Thông qua một thỏa thuận pháp lý phức tạp, tổ chức này hoạt động như một người trong cuộc của Facebook: có thể xem tất cả dữ liệu và chọn các bộ thú vị, cho phép các nhà nghiên cứu giữ quyền tự do học thuật và đảm bảo rằng đây là các dữ liệu có thể tin tưởng được.

Nhưng Social Science One gặp phải một vấn đề gần như ngay khi dự án bắt đầu. King và người đồng sáng lập của mình, Nathaniel Persily tại Đại học Stanford ở California, đã nghĩ rằng các nhà nghiên cứu có thể thực hiện công việc của họ bằng cách sử dụng các hệ thống Facebook. Tuy nhiên, Facebook không có các cấu trúc để có thể dễ dàng cung cấp cho các bên khác quyền truy cập vào dữ liệu cụ thể, King nói. "Giống như thuê một căn phòng nhưng phòng này không có lối vào riêng - thay vào đó, muốn vào phải có chìa khóa cho toàn bộ ngôi nhà", King nói.

Thay vào đó, chia sẻ dữ liệu với các nhà nghiên cứu mà không ảnh hưởng đến quyền riêng tư của người dùng đòi hỏi cơ sở hạ tầng hoàn toàn mới. Làm việc với Facebook, Social Science One đã xây dựng một cổng thông tin an toàn kết nối với các máy chủ của Facebook và sử dụng kỹ thuật toán học differential privacy, một hệ thống để chia sẻ công khai thông tin về tập dữ liệu bằng cách mô tả các mẫu của các nhóm trong tập dữ liệu trong khi bảo vệ thông tin về các cá nhân trong tập, được tiên phong bởi nhà khoa học máy tính tại Harvard và Microsoft, Cynthia Dwork. Cách làm này này thêm "nhiễu" vào kết quả phân tích, bảo mật nhận dạng cá nhân nhưng không làm sai lệch kết quả. King cho biết, "differential privacy hóa ra không chỉ hữu ích mà còn là phương án duy nhất", King nói.

Mô hình sử dụng bên thứ ba đáng tin cậy này là mô hình mà các nhà khoa học hy vọng sẽ dùng để tiếp tục làm việc với các công ty khác, Jake Metcalf, một nhà đạo đức công nghệ tại think-tank Data & Society ở thành phố New York cho biết. Các hệ thống tương tự được sử dụng để cung cấp cho các nhà nghiên cứu quyền truy cập vào dữ liệu di truyền, ông nói.

Nhưng ông bổ sung rằng dữ liệu truyền thông xã hội, mặc dù ít nhạy cảm hơn thông tin y tế, mang đến một thách thức riêng tư thêm ở chỗ: chúng được kết nối với một hành vi trong thế giới thực của một người. Điều này có nghĩa là, ngay cả khi dữ liệu được ẩn danh, việc sử dụng chúng để nhận dạng các cá nhân là tương đối dễ dàng, đặc biệt nếu chúng được tham chiếu chéo với các dữ liệu khác, chẳng hạn như dữ liệu từ điện thoại di động, Metcalf nói. Đây cũng là một góp ý của nhóm thực hiện đánh giá đạo đức đề xuất cho các dự án.

"Facebook đang là đối tượng được nói đến, nhưng thực sự rất khó để xây dựng một mô hình chia sẻ dữ liệu giữa các nền tảng truyền thông xã hội và các nhà nghiên cứu", Metcalf nói.

Mặc dù kế hoạch tài trợ có thể đã quá tham vọng, nhưng sự cố của nó không phải là một hồi chuông báo tử cho mô hình, ông nói. "Tôi vẫn tự tin rằng đây là cách để tiến về phía trước".

Nguồn:

https://www.nature.com/articles/d41586-019-02966-x
https://www.nature.com/articles/d41586-019-01447-5
https://www.nature.com/articles/d41586-018-03880-4