Cuốn sách "How Data Happened" của hai nhà nghiên cứu Chris Wiggins và Matthew L. Jones không chỉ kể lại lịch sử phát triển của dữ liệu từ thời Khai sáng đến kỷ nguyên thuật toán hiện đại, mà còn giải thích cách dữ liệu phản ảnh quyền lực, chính trị và xã hội.


Bước vào mùa giải 2024-2025, ngài Jim Ratcliffe - ông chủ câu lạc bộ bóng đá giàu truyền thống Manchester United đã làm nhiều cổ động viên bất ngờ khi chiêu mộ giám đốc dữ liệu Michael Sansoni - người có kinh nghiệm làm việc lâu năm tại… đội đua công thức 1 Mercedes. Rất ít người hâm mộ thể thao tìm thấy điểm chung giữa hai môn thể thao bóng đá và đua xe, ngoại trừ các nhà khoa học: đó là các thuật toán phân tích dữ liệu. Chúng rất phức tạp, trừu tượng và vượt xa những phép toán thống kê đầu tiên được loài người sử dụng để khảo sát các vấn đề xã hội cho nhà nước.

Cuốn sách được xuất bản lần đầu vào năm 2023 và mới đây đã được chuyển ngữ sang tiếng Việt. Nguồn: Times
Cuốn sách được xuất bản lần đầu vào năm 2023 và mới đây đã được chuyển ngữ sang tiếng Việt. Nguồn: TIMES

Theo C. Wiggins và M. Jones, thu thập và phân tích dữ liệu đã sớm xuất hiện trong lịch sử thế giới nhưng chỉ thực sự trở nên quan trọng từ thế kỷ XVIII đến nay. Điều này bắt nguồn từ sự thay đổi tư duy thống kê của các bác học đương thời mà Adolphe Quetelet (1796-1874) là người nổi tiếng hơn cả. Nhà thiên văn học người Bỉ đã tiên phong hướng thống kê đến những vấn đề vi mô hơn, liên quan đến nhiều khía cạnh ẩn sau dữ liệu tội phạm, tần suất tự tử hay chiều cao dân số… Ông cũng là người tạo ra những khái niệm đến nay vẫn hữu ích trong toán học, thống kê xã hội học và khoa học dữ liệu như “đường cong chuẩn”, “con người trung bình”. A. Quetelet đã đặt nền tảng cho các ngành khoa học về con người như nhân học, dân tộc học, xã hội học… bằng niềm tin khác biệt rằng có thể phân tích hiểu biết về bản chất con người bằng phương pháp toán học.

Tuy nhiên, How Data Happened: A History from the Age of Reason to the Age of Algorithms (Lịch sử tiến hóa của dữ liệu: Từ kỷ nguyên duy lý đến kỷ nguyên các thuật toán), bàn nhiều hơn đến việc A. Quetelet nâng tầm các phép toán thống kê thành một khoa học sẽ xuất hiện trong tương lai - khoa học dữ liệu. Đột phá lớn của A. Quetelet trong thống kê, dữ liệu đã ngay tức thì thu hút sự quan tâm của các mạnh thường quân. Điều này chẳng khác nào phước lành cho ngành khoa học non trẻ. Dẫu vậy, con đường hình thành khoa học dữ liệu không chỉ toàn điểm sáng. Bởi lẽ, đa phần cá nhân, tổ chức quan tâm đầu tư, tài trợ cho nghiên cứu thống kê, phân tích dữ liệu đều có toan tính riêng.

Vài người trong số họ có thể khiến chúng ta rùng mình vì những ảo mộng có phần điên rồ như ngài Francis Galton. Ông, tài trợ cho khoa học thống kê bằng hầu bao vô tận…, để chứng minh thuyết ưu chủng, phân biệt chủng tộc của mình là chân lý khoa học. May mắn thay, khi chứng minh những học thuyết không tưởng, có phần phi nhân vừa nêu, F. Galton cũng vô tình tìm ra khái niệm mới - hồi quy thống kê. Số khác như Edward Guinness có đánh giá thực tế hơn về dữ liệu, khi kiếm tìm một phương thức sản xuất bia tiên tiến, từ những thứ thu thập được cùng các phép toán mới.

Dẫu sao, nhờ nguồn tiền của các các quý ông như F. Galton, E. Guiness, thống kê đã có những bước tiến quan trọng, tách biệt khỏi toán học, dần khẳng định vị trí khoa học độc lập của riêng mình. Hai tác giả C. Wiggins và M. Jones đồng thuận rằng một số nhà toán học nổi tiếng như Karl Person, William Sealy Gosses dường như hưởng lợi rất lớn từ sự rộng rãi này.

Sau khởi đầu suôn sẻ, dữ liệu và những thuật để phân tích chúng thực sự bùng nổ trong và sau Thế chiến thứ hai. Nghiên cứu dữ liệu là một lợi ích hiếm hoi mà bầu không khí căng thẳng do chiến tranh vô tình thúc đẩy. Như C. Wiggins và M. Jones chỉ ra, “hầu hết phát triển trong lĩnh vực điện toán thời điểm đó đều xuất phát từ hoạt động thương mại và quân sự gắn bó chặt chẽ với nhau, điển hình cho chủ nghĩa tư bản nhà nước thời Chiến tranh lạnh” (Lịch sử tiến hóa của dữ liệu, tr.181).

Dữ liệu đòi hỏi cơ sở hạ tầng lớn chủ yếu thông qua quân đội. Chính phủ Mỹ tài trợ hơn một nửa chi phí nghiên cứu, phát triển máy tính và các nhà nghiên cứu của chính phủ tham gia sâu vào quá trình phát triển này đến cuối năm 1950. Nhiều mẫu máy tính phiên bản thương mại vốn được chế tạo cho việc mô phỏng vụ nổ nguyên tử và bẻ khóa mật mã của đối phương. Đây là thời kỳ chứng kiến những ý tưởng, phát minh giờ này đã quen thuộc với chúng ta như: trí tuệ nhân tạo, máy vi tính, các thiết bị máy học. Bộ Quốc phòng Hoa Kỳ đã dốc hầu bao để phát triển trí tuệ nhân tạo… dù các nhà khoa học, giới đầu tư vẫn nghi ngờ về tính khả thi của nhiều ý tưởng, đánh giá chúng là “khát vọng hơn là một phương pháp cụ thể” (Lịch sử tiến hóa của dữ liệu, tr.163).

Sự phát triển của các lĩnh vực liên quan đến khai thác, phân tích dữ liệu gần như không bị cản trở. Chính điều này khiến quan niệm đạo đức, pháp luật về quyền con người vô hình trung bị phớt lờ.

Trong bối cảnh đó, những giá trị đạo đức phổ quát về tôn trọng con người, nguyên tắc chính trong Báo cáo Belmont 1978 của Ủy ban Quốc gia về Bảo vệ Đối tượng Nghiên cứu Y sinh và Hành vi của Con người (Hoa Kỳ)… là tiền đề quan trọng để thành lập Hội đồng đánh giá cơ sở (Institutional review board, IRB) tại các trung tâm nghiên cứu, doanh nghiệp. Nhưng chúng nhanh chóng bị bỏ lại phía sau khi các tập đoàn chạy đua giành giật dữ liệu.

Sự thiếu vắng chuẩn mực đạo đức và khung pháp lý là một phần nguyên nhân dẫn đến sự tràn lan của thuật toán mang tính phân biệt chủng tộc, giới tính, xâm phạm quyền cá nhân của người tham gia không gian mạng. Các “ông lớn” công nghệ như Google, Facebook dường như chỉ tạo dựng chuẩn mực đạo đức như công cụ quảng cáo nhằm qua mắt chính quyền, người dùng và phần nào đó… khẳng định sự ưu việt so với đối thủ. Họ thiếu hẳn hoặc đã bỏ bê bộ phận nghiên cứu đạo đức AI, đạo đức khai thác dữ liệu. Trong khi đó, các nhà lập pháp lại quá chậm chạp trong việc thiết lập các hành lang pháp lý nhằm lấp đầy vùng xám trong khoa học dữ liệu.

Trong phần cuối của cuốn sách, C. Wiggins và M. Jones đã dành một dung lượng đáng kể đề xuất những giải pháp đạo đức cho khoa học dữ liệu, nhấn mạnh yếu tố quyền lực nhân dân để chống lại thứ chủ nghĩa tư bản giám sát đang được hình thành trong thế kỷ XXI

Là một cuốn sách hay nhưng Lịch sử tiến hóa của dữ liệu tương đối khó đọc. Bởi lẽ, các mảnh ghép tạo ra khoa học dữ liệu rất phân mảnh, nằm rải rác trong nhiều lĩnh vực - từ toán học, vật lý, thống kê cho đến những ngành tưởng như không liên quan như sinh học, nhân chủng học hay triết học. Trong tác phẩm của mình, C. Wiggins và M. Jones đã cố gắng trình bày lịch sử tiến hóa của dữ liệu một cách hệ thống và liền mạch nhất có thể. Dẫu vậy, cuốn sách vẫn có thể vẫn khiến những người đọc chuyên sâu hơn không hài lòng… vì nó chưa đề cập nhiều đến sự phát triển của khoa học dữ liệu bên ngoài Hoa Kỳ và châu Âu. Cuốn sách chỉ dành một số ít trang để mô tả thành tựu thống kê của Liên Xô, Nhật Bản và không đề cập đến vấn đề dữ liệu của các siêu cường mới như Trung Quốc trong các thập niên gần đây. Bất kể những khiếm khuyết nêu trên, cuốn sách rất đáng tham khảo đối với các nhà làm luật Việt Nam, khi chúng ta đang bước vào kỷ nguyên của dữ liệu như một xu hướng không thể đảo rời.

Bài đăng KH&PT số 1372 (số 48/2025)