Dữ liệu đã trải qua những gì để trở thành một tài sản lớn của mỗi công ty, quốc gia và mỗi ngành khoa học như ngày hôm nay?
Trong 150 năm qua, quan niệm thế nào là dữ liệu đã thay đổi rõ rệt, cũng như việc dữ liệu nào đáng tin cậy và ai sở hữu chúng. Từng được coi là đối tượng đáng quan tâm đối với một số ít phiên dịch viên chuyên nghiệp, giờ đây dữ liệu là hàng hóa có thể tái sử dụng với mọi mục đích. Giá trị của chúng phụ thuộc vào cách sử dụng trong từng bối cảnh và cách các bộ dữ liệu tích hợp với nhau. Ngày càng phát triển về số lượng, sự đa dạng và giá trị, dữ liệu đã thúc đẩy quá trình khám phá của con người.
Trải qua một quá trình phát triển lâu dài về thể chế, công nghệ và kinh tế, ngày nay dữ liệu được coi là tài sản, thậm chí là tài sản tối quan trọng của mỗi công ty, quốc gia.
Những bước đầu thu thập “hàng hóa”
Cho đến đầu thế kỷ XIX, việc thu thập các sự kiện và đối tượng nghiên cứu chủ yếu được thực hiện thủ công bởi các nhà khoa học, thường được tài trợ bởi các khách hàng giàu có. Các nhà khoa học tự nhiên đã phải đi khắp trái đất để tìm kiếm các mẫu vật sinh học mới phục vụ nghiên cứu khoa học. Các nhà thiên văn học nghĩ ra các công cụ để quan sát các phần mới của vũ trụ. Số lượng lớn dữ liệu tích lũy được hệ thống hóa và phân tích thông qua các mô hình và các hệ thống phân loại đơn giản.
Thế kỷ XIX đánh dấu một sự thay đổi. Dữ liệu, như chúng ta biết hiện nay, đã được thể chế hóa thành hàng hóa xã hội. Việc thu thập dữ liệu nhận được các khoản đầu tư với các mục đích khác nhau, tạo ra giá trị khoa học, kinh tế, tài chính và chính trị của dữ liệu.
Đầu thế kỷ, bảo tàng lịch sử tự nhiên Paris bắt đầu được tổ chức lại thành một kho lưu trữ công khai các đối tượng có giá trị khoa học. Đến thập niên 1850, các bảo tàng lịch sử tự nhiên của Berlin, London và thành phố New York cũng làm như vậy.
Việc tập trung các thị trường thực phẩm đã tạo ra các cách tiếp cận tiêu chuẩn hóa cho việc định giá và buôn bán sinh vật - chẳng hạn như các biện pháp trồng trọt được đưa ra bởi Ủy ban Thương mại Chicago ở Illinois. Dịch bệnh tả ở châu Âu đã thúc đẩy việc thu thập thông tin quy mô lớn về sự lây lan và các cá thể dễ bị nhiễm bệnh. Các phương pháp trực quan và phân tích mới đã xuất hiện, như bản đồ nổi tiếng về cách nước nhiễm bệnh dịch tả ở trung tâm London của bác sĩ John Snow.
Dịch vụ thời tiết quốc gia bắt đầu liên kết với dữ liệu được thu thập trong khu vực. Công ước Brussels năm 1853 về khí tượng hải quân đã chuyển các nhật ký tàu của thành các bản ghi dữ liệu gần như toàn cầu đầu tiên cho khoa học khí hậu. Tại Berlin, văn phòng tiêu chuẩn đo lường thực sự đầu tiên, Physikalische-Technische Reichsanstalt, được khánh thành vào năm 1887 với nhà vật lý Hermann von Helmholtz làm giám đốc sáng lập và có nhiệm vụ tạo ra dữ liệu cần thiết cho toàn xã hội. Trong khi đó, Quân đội Hoa Kỳ giao nhiệm vụ cho Thư viện Văn phòng Bác sĩ phẫu thuật tổng hợp thu thập càng nhiều báo cáo về các trường hợp bệnh càng tốt. Trong vòng 30 năm, Thư viện này đã trở thành thư viện y tế lớn nhất thế giới.
Các bản ghi dữ liệu cực nhỏ được sử dụng trong báo cáo chi tiết đầu tiên của Vương quốc Anh về mối liên hệ giữa ung thư phổi và amiăng.
Bảo vật quốc gia
Bước sang thế kỷ XX, sự trỗi dậy của các quốc gia và nhu cầu thương mại quốc tế ngày càng tăng đã thúc đẩy các sáng kiến đo lường tự nhiên và xã hội theo cách khách quan, có hệ thống hơn. Cơ sở hạ tầng thông tin quốc gia đã giúp các khu vực chia sẻ dữ liệu, đánh dấu sự khởi đầu của chủ nghĩa toàn cầu thông tin mới. Các tổ chức quốc tế, như Liên minh các quốc gia và Quỹ tiền tệ quốc tế, mong muốn toàn cầu hóa việc thu thập và phân tích dữ liệu cho nhiều mục đích và trên tất cả các lĩnh vực khoa học.
Ví dụ, Tổ chức Y tế Liên minh đã thành lập Ủy ban Thường trực về Tiêu chuẩn Sinh học để theo dõi các xét nghiệm ma túy và xét nghiệm sinh học từ năm 1924. Từ trước Chiến tranh Thế giới thứ hai, trên thế giới đã có nhu cầu chia sẻ thông tin về việc làm, tiền lương và di cư; từ năm 1947, những dữ liệu này đã được Ủy ban thống kê quốc tế thu thập. Những sáng kiến như vậy được thúc đẩy bởi một đội ngũ các nhà nghiên cứu, quản trị viên, thương nhân và chính trị gia ngày càng mở rộng.
Tất cả điều này thúc đẩy sự phát triển của các phương pháp tinh vi để định lượng dữ liệu. Thống kê nổi lên như một ngành học riêng biệt - nguồn thông tin chính cho các hoạt động bảo hiểm mới nổi và hệ thống giám sát sức khỏe cộng đồng. Nhiều kỹ thuật được phát triển để phù hợp với sự phức tạp của các thực hành xã hội như điều tra dân số. Tư duy cấp độ dân số trở thành phổ biến trong các ngành khoa học cuộc sống, di truyền và bệnh. Một loại thu thập dữ liệu mới tập trung vào các đột biến di truyền của một loài mô hình duy nhất, chẳng hạn như ruồi giấm.
Hai cuộc chiến tranh thế giới đã làm gián đoạn nghiêm trọng việc thu thập và chia sẻ dữ liệu trong một thời gian ngắn. Nhưng từ những năm 1940, khoản đầu tư khổng lồ của quân đội vào công nghệ thông tin đã trở thành động lực phát triển ngành máy tính.
Cuộc đua khám phá không gian có lẽ là đóng góp đáng chú ý nhất của chiến tranh lạnh đối với các hệ thống và thông lệ dữ liệu toàn cầu, đặc biệt là công nghệ vệ tinh. Điều này tạo ra cái nhìn toàn cầu đầu tiên về hành tinh và thúc đẩy sự khánh thành hệ thống Intelsat cho các mạng truyền thông dân sự trên toàn thế giới trong những năm 1960.
Tổ chức Khí tượng Thế giới được thành lập vào năm 1950 để giám sát mối liên kết quốc tế của các dịch vụ thời tiết khu vực, ví dụ như trong Chương trình Nghiên cứu Khí quyển Toàn cầu. Năm 1957-58, hay còn gọi là Năm Địa vật lý quốc tế, đã đánh dấu một bước thay đổi trong cam kết của khoa học Trái đất hướng đến trao đổi dữ liệu toàn cầu và là một thành tựu ngoại giao giữa chiến tranh lạnh.
Một máy dữ liệu Hollerith tại một công trình thép ở Sheffield, Vương quốc Anh, vào năm 1963. Thiết bị cơ điện giúp công nhân lập bảng thống kê ghi trên thẻ đục lỗ.
Hàng hóa toàn cầu
Từ những năm 1970, hầu hết mọi lĩnh vực khoa học đều xây dựng cơ sở hạ tầng số hóa toàn cầu để chia sẻ dữ liệu. Liên Hợp Quốc củng cố hệ thống giám sát môi trường toàn cầu, giống như Tổ chức Y tế Thế giới đã hệ thống hóa và lập bản đồ về sự lây lan của các bệnh truyền nhiễm. Việc phát triển của các công cụ, chẳng hạn như các mô hình máy tính, có thể tạo ra các con số ở quy mô không thể tưởng tượng trước đây trở thành một lĩnh vực rộng mở.
Càng ngày, dữ liệu càng được xem là tài sản có thể chia sẻ để tái sử dụng, giá trị của chúng có thể thay đổi tùy thuộc vào cách sử dụng. Một lần nữa, vai trò thay đổi của dữ liệu gắn liền sự tăng trưởng của thương mại quốc tế và vai trò càng tăng của nghiên cứu khoa học như một động lực tăng trưởng kinh tế, sức mạnh quân sự và quan hệ quốc tế.
Cũng trong những năm 1970, các ngành khoa học lớn, như nghiên cứu về va chạm hạt tại Phòng thí nghiệm quốc gia Los Alamos ở New Mexico và tại Phòng thí nghiệm vật lý hạt CERN ở Thụy Sĩ, đã chiếm vị trí trung tâm. Ở đây, việc sản xuất và buôn bán dữ liệu không còn là trách nhiệm của từng nhà nghiên cứu. Thay vào đó, dữ liệu là đầu ra của các nỗ lực đầu tư lớn và tập thể được thực hiện trong các cơ sở thử nghiệm tập trung. Việc tập trung hóa như vậy là không khả thi trong nhiều lĩnh vực, ví dụ như trong khoa học môi trường, sinh học và khí hậu, những ngành làm việc dựa trên dữ liệu quan sát hơn là dữ liệu thực nghiệm. Tuy nhiên, ngay cả những ngành học đó cũng cố gắp tập trung vào việc xây dựng mạng lưới chia sẻ dữ liệu, để có đủ thông tin và tận dụng các công cụ tính toán mới.
Từ những năm 1980, máy tính xách tay, mô hình hóa và mô phỏng đã định hình việc thu thập, thao tác xử lý và lưu trữ dữ liệu. Các nhà khoa học khí hậu đã phát triển các cách để sử dụng các hồ sơ di sản để xây dựng lại lịch sử bầu khí quyển ở cấp độ toàn cầu. Nỗ lực này đã thúc đẩy việc tập hợp dữ liệu quốc tế, lên đến đỉnh điểm vào năm 1992 trong Hệ thống quan sát khí hậu toàn cầu.
Trong sinh học, nhiệm vụ lập bản đồ đã chuyển sang cấp độ phân tử với các dự án giải trình tự gen lớn, đầu tiên là ở các sinh vật mô hình như giun tròn Caenorhabd elegans, sau đó thông qua Dự án hệ gen người. Các cơ sở dữ liệu tuần tự được hình thành như một nền tảng, tạo điều kiện chia sẻ, trực quan hóa và phân tích trực tuyến ngay lập tức với chi phí thấp, biến việc đầu tư quy mô lớn vào sản xuất dữ liệu gen thành kiến thức hữu ích.
Giá trị và nguy cơ
Kho máy chủ tại một trong những trung tâm dữ liệu của Google.
Trong vài thập kỷ qua, phong trào Khoa học mở đã kêu gọi chia sẻ dữ liệu rộng rãi như là nền tảng để nghiên cứu tốt hơn. Điều này đã thúc đẩy một số thay đổi. Một là sự ra đời của các tạp chí dành phần lớn cho việc xuất bản các bộ dữ liệu, bên cạnh đó là những khoản đầu tư đầy tham vọng vào cơ sở hạ tầng dữ liệu, chẳng hạn như Đám mây Khoa học mở Châu Âu. Và các hướng dẫn của FAIR đã được soạn thảo về cách dán nhãn và quản lý dữ liệu để đảm bảo khả năng tái sử dụng. Cũng đã có những lời kêu gọi cải thiện các đãi ngộ cho người quản lý dữ liệu (như kỹ thuật viên, nhà lưu trữ và người quản lý), để nâng cao vị thế của họ từ nhân viên hỗ trợ đến người sáng tạo tri thức.
Những cải cách này là giải pháp tạm thời cho một cuộc khủng hoảng quy mô lớn của hệ thống nghiên cứu đương đại, bắt nguồn từ việc không thể dung hòa các khía cạnh khoa học, kinh tế và xã hội của dữ liệu. Trong thế kỷ XX, dữ liệu cũng là tài sản chính trị, kinh tế và quyền sở hữu chúng có thể tạo thành các mối đe dọa an ninh.
Khi các thuật toán trở nên phức tạp hơn bao giờ hết, tính minh bạch và trách nhiệm giải trình của các kỹ thuật và công cụ được sử dụng để giải thích dữ liệu đang giảm dần. Những người hiểu và kiểm soát quản lý dữ liệu thường nắm những vai trò quan trọng trong các tập đoàn lớn. Và ngày càng nhiều những lo ngại gia tăng xung quanh quyền sở hữu dữ liệu, đặc biệt là trong bối cảnh lạm dụng dữ liệu cá nhân, như nhiều vụ việc của Facebook và công ty Cambridge Analytica của Anh.
Việc sử dụng dữ liệu lớn làm đầu vào cho các hệ thống trí tuệ nhân tạo phụ thuộc vào nguồn dữ liệu toàn cầu, toàn diện và sẵn có. Về nguyên tắc, việc kết hợp các công cụ phân tích mạnh mẽ với dữ liệu sinh học lớn có thể hỗ trợ y học cá nhân và nông nghiệp chính xác. Tương tự, dữ liệu xã hội được tăng cường từ các nền tảng Internet và các dịch vụ truyền thông xã hội có thể giúp tạo ra chính sách kinh tế, y tế hay giáo dục dựa trên bằng chứng thống kê. Tuy nhiên, việc sử dụng dữ liệu không đơn giản như vậy, vẫn còn đó những vấn đề xã hội và đạo đức.
Nguồn:
https://www.nature.com/articles/d41586-019-03062-w