Dòng chảy dữ liệu đã xuất hiện như thế nào và ngày càng trở nên quyền lực ra sao - nhà khoa học dữ liệu Chris Wiggins và nhà sử học Matthew Jones tại Đại học Columbia đã tìm cách trả lời một cách đầy đủ và rốt ráo nhất có thể câu hỏi này trong cuốn sách "Lịch sử tiến hóa của dữ liệu: Từ kỷ nguyên duy lý tới kỷ nguyên các thuật toán".
Theo hai tác giả, điểm khởi đầu của dòng chảy dữ liệu có thể quy vào khoảng cuối thế kỷ 18, khi từ “thống kê” (statistics) lần đầu tiên xuất hiện. Đó là giai đoạn các quốc gia châu Âu đang ngày càng lớn mạnh và muốn đo lường quyền lực của mình bằng cách thống kê các nguồn lực mà họ nắm giữ để thu thuế hoặc trả tiền cho chiến tranh.
Ban đầu, thống kê chỉ đơn giản là thông tin về nhà nước và tài nguyên, chưa liên quan tới các phân tích định lượng hay phân tích dự đoán như sau này. Về sau, các nhà khoa học đã phát triển những kỹ thuật mới để phân tích, diễn giải các dữ liệu thu thập được. Một dấu mốc đáng kể là khi nhà thiên văn học người Bỉ thế kỷ 19 Adolphe Quetelet áp dụng các kỹ thuật thống kê này để nghiên cứu xã hội và hành vi con người. Ông thử sức từ những chủ đề gần như không bị chi phối bởi ý chí con người như tỷ lệ tử vong, chiều cao dân số đến những chủ đề phức tạp như tỷ lệ tội phạm, tần suất tự tử – nơi mà sự lựa chọn cá nhân đóng vai trò quan trọng.
Quetelet bắt đầu nhận ra một quy luật là các số liệu sẽ tụ tập quanh một giá trị trung bình, các hiện tượng xã hội thường sẽ tuân theo dạng “phân phối chuẩn” nhất định. Theo ông, “càng nhiều cá nhân được quan sát thì những đặc điểm riêng biệt của cá nhân, dù về mặt vật lý hay đạo đức, càng trở nên mờ nhạt, và ngược lại, những thông số chung sẽ làm nổi bật các chuẩn mực xã hội giúp duy trì cấu trúc của nó”. Có nghĩa là, có một giá trị trung bình để mô tả khách quan xã hội, ví dụ như chiều cao trung bình của dân số, hoặc một hành vi của tập thể có thể dự đoán được, ví dụ như số lượng tất cả các trường hợp tự tử trong một năm tuân theo một mẫu lặp lại bất chấp mỗi hành động tự tử là một quyết định cá nhân. Vào thời Quetelet, khái niệm “con người trung bình” mà ông đưa ra là một cách tiếp cận mới mẻ, giúp xác định những đặc điểm tiêu biểu của một xã hội, hay được gọi là đặc điểm “chủng tộc” theo ngôn ngữ của thế kỷ 19.
Những người tiếp nối tư tưởng của Quetelet đã phát triển nó thành một nhánh khoa học mới, dù hướng đi của họ khác xa với lý tưởng cải cách xã hội mang tính tích cực và tự do của Quetelet. Hai cái tên nổi bật được nêu lên trong cuốn sách là Francis Galton và Karl Pearson, những người đã cố gắng lượng hóa các “khác biệt chủng tộc” để phục vụ cho cái mà họ gọi là “thuyết ưu sinh” (eugenics).
Khác với Quetelet nghiên cứu xã hội để hiểu được các đặc tính của một nhóm tổng thể, Galton nghiên cứu các cá nhân trong một phân bố để tìm cách xếp hạng cá nhân. Nếu như Quetelet sử dụng phân phối chuẩn để đo chiều cao trung bình của dân số thì Galton sử dụng phân phối chuẩn để xem biên độ của chiều cao, và phân loại cá nhân dựa trên sự lệch chuẩn của chiều cao đó. Ngày nay, việc học sinh nhận được phiếu điểm kèm theo thứ hạng phần trăm trong lớp chính là một minh chứng rõ ràng cho những ảnh hưởng từ di sản của Galton. Ông đã đi xa hơn khi phát triển các khái niệm thống kê như “hồi quy” và “tương quan” để giải thích các hiện tượng xã hội, ví dụ như bố mẹ cao thì con sẽ cao nhưng không cao bằng bố mẹ, phần lớn chúng hướng về chiều cao trung bình của dân số.
Karl Pearson đã thể chế hóa các phương pháp thống kê của Galton bằng cách thiết lập các phòng thí nghiệm, tuyển nhân lực và tìm nguồn tài trợ cho các dự án xử lý dữ liệu lớn về sinh trắc học. Chẳng hạn, ông phân tích dữ liệu thống kê và chỉ ra rằng trí thông minh được di truyền và nước Anh đang tụt hậu trong cuộc đua trí tuệ: “Những người có chất lượng trí tuệ tốt hơn đã không sinh đẻ với tốc độ như trước đây, những người kém khả năng và ít năng động hơn lại có khả năng sinh sản cao hơn”. Điều đó nhấn mạnh rằng vấn đề không nằm ở hệ thống giáo dục mà ở chất lượng gen của dân số. Theo Pearson, “Không có kế hoạch cải cách giáo dục sâu rộng nào có thể nâng cấp những người có điểm yếu di truyền lên mức của những người có điểm mạnh di truyền”, do vậy giải pháp mà ông đề xuất là thay đổi tỷ lệ sinh sản giữa các nhóm gen “tốt” và “xấu” trong cộng đồng. Ông còn mở rộng vấn đề thành các câu hỏi về di cư, ví dụ như vì sao cần phải ban hành luật cho một nhóm người ưu việt khi họ có thể bị áp đảo bởi dòng người nhập cư từ một chủng tộc kém phát triển hơn đang tìm cách hưởng lợi từ một xã hội văn minh hơn.
Phong cách của Galton và Pearson đã định hình nên một thời kỳ dùng dữ liệu làm cơ sở khoa học cho hệ thống phân cấp dựa trên những khác biệt bẩm sinh giữa người với người, dù là sự phân biệt dựa trên giới tính, chủng tộc hay giai cấp. Dữ liệu đã thêm một lớp vỏ khoa học cho việc thể chế hóa thuyết ưu sinh vào trong các chương trình và chính sách xã hội.
Tuy nhiên, các kỹ thuật xử lý dữ liệu không chỉ được áp dụng vào các vấn đề xã hội mà còn được mở rộng để giải quyết các bài toán trong lĩnh vực sản xuất. Các nhà nghiên cứu then chốt gồm Gosset, Fisher và Neyman đã có những đóng góp quan trọng trong việc phát triển những phương pháp kiểm định thống kê giúp xác định phương án tối ưu khi thực nghiệm. Ví dụ, “kiểm định t-test” của Gosset giúp trả lời tình huống khi đo năng suất mùa màng trên nhiều cánh đồng và nhận thấy có sự chênh lệch rõ rệt giữa hai loại lúa mì thì sự khác biệt này chỉ là ngẫu nhiên hay do giống lúa. Hoặc, “kiểm định p-value” của Fisher giúp thiết kế các thử nghiệm đối chứng ngẫu nhiên với tỷ lệ ra sao để có thể đánh giá tốt hiệu quả của một loại thuốc mới và tác dụng phụ mà nó gây ra.
Đến đầu thế kỷ 20, thống kê ngày càng khẳng định sức mạnh và tầm ảnh hưởng của mình. Các loại hồ sơ do chính phủ thu thập, như giấy khai sinh hay điều tra dân số, trở nên chi tiết và có tổ chức hơn bao giờ hết, khiến “con người được chuyển hóa thành dữ liệu theo một cách chưa từng thấy trước đó”. Nhưng bước ngoặt thực sự diễn ra vào những năm 1940, khi chiếc máy tính đầu tiên ra đời tại Bletchley Park (Anh) - nơi nhà toán học Alan Turing và các cộng sự đã giải mã các thông điệp tuyệt mật của Đức Quốc xã từ chiếc máy Enigma trong Thế chiến II.
Kể từ đó, việc phân tích dữ liệu trở thành một quy trình có quy mô công nghiệp: từ chỗ chỉ có thể lượng hóa thế giới đến một mức nhất định bằng lao động thủ công, chúng ta bắt đầu xây dựng cả một hệ thống công nghệ khổng lồ thay con người xử lý thông tin nhanh hơn, nhiều hơn, và chính xác hơn bao giờ hết.
Từ giữa thập niên 1950, chính phủ Mỹ – đặc biệt là Cơ quan An ninh Quốc gia Mỹ (NSA) – đã rót tiền vào các công ty tư nhân như IBM và Bell Labs để tạo ra những thiết bị lưu trữ bắt kịp với khối lượng dữ liệu tình báo ngày càng tăng, đồng thời phát triển các phương pháp thống kê tính toán mới để phân tích toàn bộ dữ liệu có được. Bài toán xử lý “sóng thần dữ liệu” của NSA ban đầu là thách thức của khu vực công, cuối cùng lại tạo ra một số lĩnh vực kinh doanh béo bở cho khu vực tư nhân. Các tập đoàn Mỹ bắt đầu đón nhận công nghệ điện toán vào những năm 1960. Các quảng cáo về công dụng của máy tính - ví dụ như giúp lập các bảng biểu thống kê, nghiên cứu thị trường, hồ sơ bảo hiểm, thăm dò dầu khí, tìm kiếm tài liệu v.v - đã được phổ biến rộng rãi trong công chúng.
Trong vòng một thập kỷ, việc sử dụng máy tính đã dẫn đến sự hình thành các cơ sở dữ liệu khổng lồ chứa đầy thông tin cá nhân của hàng triệu người - từ các giao dịch thẻ tín dụng, hành trình du lịch, chuyến bay đến việc thuê xe hơi. Mỗi hành động đều được ghi lại tỉ mỉ thành các điểm dữ liệu. Doanh nghiệp bắt đầu áp dụng các phương pháp thống kê để hỗ trợ ra quyết định: ai có khả năng được vay tiền, ai là khách hàng tiềm năng trong các chiến dịch quảng cáo.
Ngày nay, chúng ta có thể tạo ra những thuật toán dựa trên trí tuệ nhân tạo (AI) với khả năng ra quyết định tự động thay con người. Nhưng các công nghệ này cũng không thoát khỏi vòng luẩn quẩn của dữ liệu - chúng thường củng cố các dạng cấu trúc bất bình đẳng, định kiến và bất công đã được “mã hóa” vào trong dữ liệu, tạo ra một hệ thống tự động mới trông có vẻ khách quan nhưng thực tế lại lệch lạc. Bởi vậy, sau khi liên tục tô đậm thông điệp “dữ liệu là quyền lực”, hai tác giả đi sâu vào thảo luận những câu hỏi về đạo đức mà các bên khai thác dữ liệu phải đối mặt.
Họ đề cập chi tiết hai cách hiểu đại diện cho hai thái cực - hoặc coi đạo đức là một khái niệm mơ hồ, dễ bị thao túng; hoặc nỗ lực xác định đạo đức như một tiêu chuẩn chính thức, có thể vạch ra, đo đếm được - và nhấn mạnh rằng chúng ta phải tránh xa cách tiếp cận thứ nhất và hướng đến cách tiếp cận thứ hai.
Nhìn chung, Lịch sử tiến hóa của dữ liệu giúp người đọc dễ dàng nắm bắt những khái niệm phức tạp của ngành thống kê và khoa học dữ liệu. Cuốn sách cũng tránh được hai cạm bẫy quen thuộc của những cuốn sách liên quan đến AI: tán dương công nghệ một cách mù quáng và gieo rắc nỗi sợ hãi về tương lai. Bằng giọng văn điềm tĩnh, các tác giả đã mang đến một góc nhìn mới mẻ, hữu ích về lịch sử của ngành điện toán, với dữ liệu được đặt ở vị trí trung tâm.
Tuy nhiên, cuốn sách cũng có điểm trừ, nằm ở sự thiếu liên kết chặt chẽ giữa các chương. Được phát triển từ một khóa học đại học mang tên “Dữ liệu: Quá khứ, Hiện tại và Tương lai” mà hai tác giả giảng dạy từ năm 2017, mỗi chương sách tựa như một bài giảng tách biệt. Cách tiếp cận này có thể phù hợp với môi trường giảng đường, nhưng lại tạo nên cảm giác thiếu “sợi chỉ đỏ xuyên suốt” cho cuốn sách.
Bài đăng KH&PT số 1339 (số 15/2025)