Khi coi tính chủ quan và khách quan của dữ liệu là những mặt đối lập thay vì bổ trợ cho nhau thì chúng ta đã bóp méo việc thu thập dữ liệu.

Dữ liệu không phải là một bản ghi trung lập của thực tế mà là sản phẩm của quá trình diễn giải và chịu ảnh hưởng mạnh mẽ bởi bối cảnh xã hội. Ảnh minh họa: Shutterstock
Dữ liệu không phải là một bản ghi trung lập của thực tế mà là sản phẩm của quá trình diễn giải và chịu ảnh hưởng mạnh mẽ bởi bối cảnh xã hội. Ảnh minh họa: Shutterstock

Quan niệm cho rằng sự đánh giá của con người sẽ làm “nhiễu” những nỗ lực khoa học để tìm hiểu các hiện tượng tự nhiên như chúng vốn có là một quan điểm khá phổ biến và không gây nhiều tranh cãi. Tuy nhiên, thực tế quan điểm này mới chỉ xuất hiện gần đây trong lịch sử khoa học.

Trong cuốn sách “Tính khách quan”, hai tác giả Lorraine Daston và Peter Galison đã lập biểu đồ về sự xuất hiện của tính khách quan trong khoa học và nhận thấy khái niệm này chỉ mới bắt đầu xuất hiện từ thế kỷ 19, cùng với sự phát triển của nhiếp ảnh.

Trước khi có ảnh chụp, hình vẽ minh họa trong những cuốn atlas khoa học là nguồn tài liệu quan trọng nhất để hiểu về đối tượng nghiên cứu của nhiều ngành như sinh học, vật lý, địa chất, y học, thiên văn học, thậm chí cả hạt cơ bản. Nhưng các hình vẽ này thường mô tả một hình mẫu lý tưởng thay vì một mẫu vật tồn tại thực tế. Nói cách khác, thay vì vẽ chân dung của một cá thể ruồi giấm cụ thể, một họa sĩ minh họa khoa học thế kỷ 18 đã vẽ một con ruồi giấm lý tưởng. Hình vẽ đại diện lý tưởng này sẽ mô tả tốt hơn các đặc tính trung bình của loài ruồi giấm, ngay cả khi không có một con ruồi giấm thực tế nào là hoàn toàn ở mức trung bình.

Với sự ra đời của nhiếp ảnh, các bản vẽ lý tưởng dần mất đi chỗ đứng. Người ta cho rằng con mắt máy móc của ống kính sẽ cho phép tự nhiên tự nói lên tiếng nói của chính mình, cung cấp một cái nhìn chân thực và khách quan hơn so với mắt nhìn của một người họa sĩ. Tuy nhiên, như Daston và Galison chỉ ra, sự tự tin ban đầu vào con mắt thuần khiết của máy móc đã nhanh chóng bị suy giảm. Các nhà khoa học sớm nhận ra rằng các thiết bị nhiếp ảnh cũng đưa những sai lệch của chính chúng vào trong hình ảnh mà chúng tạo ra. Không một con mắt nào, dù là của con người hay máy móc, có thể cung cấp cái nhìn không bị can thiệp về tự nhiên.


Mặc dù các nghiên cứu đã chỉ ra rằng yếu tố con người luôn ảnh hưởng đến quá trình thu thập dữ liệu, nhưng mong muốn loại bỏ yếu tố con người ra khỏi dữ liệu để tăng cường tính khách quan vẫn rất mạnh mẽ trong giới khoa học.



Từ góc độ hình dung khoa học, ý tưởng rằng máy móc cho phép chúng ta nhìn thấy bản chất đã lỗi thời từ lâu. Tuy nhiên, trong những diễn ngôn hằng ngày, vẫn có xu hướng liên tục cho rằng những thứ khách quan là những thứ có thể tự nói lên mình mà không cần phải có sự can thiệp của nhận thức, giải thích, phán đoán của con người, v.v. Nói cách khác, nhiều người vẫn tin rằng có những thứ tồn tại độc lập với con người và có thể được hiểu một cách trực tiếp mà không bị ảnh hưởng bởi con người.

Quan điểm hằng ngày này đặc biệt ảnh hưởng đến hiểu biết của chúng ta về thu thập dữ liệu. Ta sẽ thường bỏ qua những hành vi giải mã thông tin đa dạng, có ý nghĩa và thay đổi theo ngữ cảnh của những người tìm kiếm, lắng nghe và tiếp nhận thông tin. Thậm chí, ta còn xem nhẹ hoặc đánh giá thấp công việc diễn giải của những người thu thập dữ liệu, mặc dù công việc thu thập dữ liệu này tạo tiền đề để phân tích dữ liệu.

Chúng ta có xu hướng làm mất dấu những phán đoán diễn giải đa dạng được bao hàm trong mỗi lần thu thập dữ liệu, và theo đó làm giảm bớt các điều kiện xã hội cụ thể mà tại đó dữ liệu được tạo ra, ngay cả khi quá trình thu thập dữ liệu có vẻ được kiểm soát chặt chẽ.

Hãy tưởng tượng, chúng ta là một nhóm nghiên cứu đang thực hiện một cuộc Điều tra Chuyển động. Để xác định mức độ di chuyển hằng ngày của cư dân trong khu vực, chúng ta cần thu thập số bước đi và khoảng cách di chuyển của một nhóm người dùng điện thoại thông minh trong hai tuần. Chúng ta biết rằng các dòng điện thoại khác nhau cho ra kết quả khác nhau, vì vậy chúng ta đảm bảo ghi lại thông số phần cứng và phần mềm của mỗi người tham gia nghiên cứu. Chúng ta cũng biết rằng cách đi của mỗi người có sự khác biệt, vì vậy chúng ta yêu cầu người tham gia chọn từ ba kiểu: đi bước đều, đi bước nảy, và đi bước nảy nhẹ. Sau đó, chúng ta phát triển một hàm chuẩn hóa để cân bằng dữ liệu cho các thiết bị điện thoại di động và cách đi bộ khác nhau.

Hàm này hoạt động khá tốt: Nó có thể giải thích 80% sự khác biệt giữa các điện thoại. Chúng ta chỉ có nguồn lực để kiểm tra hàm của mình trên ba mẫu điện thoại Android phổ biến, nhưng phần lớn người dùng điện thoại thông minh sử dụng điện thoại Android, nên có thể chấp nhận được. Tất nhiên, chúng ta sẽ ghi rõ những hạn chế này trong các bài báo khoa học được xuất bản, bởi vì chúng ta là những nhà khoa học có trách nhiệm.

Tuy nhiên, theo thời gian, chúng ta dần quên đi những cam kết ban đầu. Chúng ta quên mất rằng nỗ lực của mình trong việc tính đến sự khác biệt giữa các thiết bị và cách đi bộ chỉ là một phần của bức tranh mà không phải là tất cả. Hơn nữa, chúng ta không hoàn toàn hiểu rõ những đặc điểm và điều kiện đặc thù tồn tại trong bộ dữ liệu của mình. Ví dụ, rất có thể một số người tham gia đã gặp khó khăn khi chọn một kiểu dáng đi duy nhất, nhưng chúng ta, những nhà nghiên cứu, đã không cung cấp cách nào để họ có thể chọn nhiều kiểu dáng đi hoặc chỉ ra sự không chắc chắn trong lựa chọn của mình. Hơn nữa, những ý tưởng của chúng ta về dáng đi đã không tính đến những người có khuyết tật hoặc sức khỏe yếu, những người có thể di chuyển khác biệt hoặc sử dụng các loại chân giả hoặc thiết bị hỗ trợ khác nhau.

Có vô số quyết định mà nhóm Điều tra đã đưa ra để định hình bộ dữ liệu đặc biệt này, bao gồm cả ý tưởng ban đầu rằng số bước đi là một chỉ số tốt để đo lường chuyển động. Dữ liệu định lượng về số bước đi xuất phát từ một loạt các quyết định mang tính giải thích phức tạp và tinh vi, từ cách mà chúng ta thiết kế nghiên cứu đến hành động cá nhân của những người tham gia. Về căn bản, các nghiên cứu thực nghiệm trong khoa học luôn đưa ra những kết luận tương tự.

Kịch bản Điều tra Chuyển động này không phải là một dự án khoa học tồi. Ngược lại, nó đại diện cho một thực tiễn khoa học rất điển hình. Vấn đề nếu có không nằm ở chỗ những người thu thập dữ liệu cẩu thả, mà nằm ở chỗ chúng ta vẫn còn dựa vào sự phân biệt khách quan và chủ quan - rằng ta giả định là có thể hoàn toàn tách biệt yếu tố con người và sự phức tạp của thực tế ra khỏi quá trình thu thập dữ liệu, dù là bằng phương pháp thủ công (chọn dáng đi) hay tự động (điện thoại đếm số bước đi). Khi chúng ta cho rằng các bộ dữ liệu như số bước đi tự nó đã hàm chứa đủ ý nghĩa, chúng ta đang phủ nhận trách nhiệm của mình trong việc quyết định những đặc tính nào sẽ được thể hiện dưới dạng dữ liệu, theo hình thức nào và với các tham số gì.

Mặc dù các nghiên cứu đã chỉ ra rằng yếu tố con người luôn ảnh hưởng đến quá trình thu thập dữ liệu, nhưng mong muốn loại bỏ yếu tố con người ra khỏi dữ liệu để tăng cường tính khách quan vẫn rất mạnh mẽ trong giới khoa học. Hơn nữa, hành động này thường được xem là đúng đắn về mặt đạo đức.

Việc thay đổi văn hóa dữ liệu đó quả thực không dễ dàng. Nhưng khi suy nghĩ về vấn đề này như một vấn đề văn hóa ngay từ đầu, chúng ta có thể tưởng tượng ra nhiều cách tiếp cận và giải pháp sáng tạo hơn. Khi dạy môn tổ chức thông tin cho bậc thạc sĩ, TS. Melanie Feinberg tại Đại học Bắc Carolina, tác giả cuốn sách“Cuộc phiêu lưu hằng ngày với dữ liệu ngang bướng” luôn yêu cầu học viên của mình thiết kế sơ đồ mô tả một đối tượng nào đó. Học viên có thể chọn mô tả bất cứ điều gì họ muốn - hạt cà phê, ngôn ngữ lập trình máy tính, quái thú thần thoại, đồ ăn nhanh, v.v không quan trọng là cái gì, miễn sao họ có thể tạo được một bộ quy tắc để tạo ra dữ liệu về đối tượng đó.

Ban đầu, mọi người đều nghĩ rằng dự án này quá dễ. Khi giảng viên bảo rằng hãy coi việc mô tả là một vấn đề thiết kế mở, một quá trình sáng tạo và linh hoạt, không bị giới hạn bởi các cách mô tả truyền thống, thay vì vật hóa các quy ước và áp dụng các mô tả có sẵn, nhiều người tỏ ra bối rối. Họ phải tự hỏi, làm thế nào để mô tả thuốc giảm đau khác với cách mà các nhà thuốc đang mô tả? Hay làm sao để mô tả một bộ phim khoa học viễn tưởng không giống như cái cách mà Netflix đang làm? Hẳn là laptop đều phải có các thành phần, đặc điểm cố định này, làm sao để có được cách khác để mô tả một chiếc laptop?

Đa số học viên sẽ nghĩ rằng dữ liệu là việc mô tả các thứ như chúng vốn có, và không có gì nghệ thuật hay thời trang ở trong đó. Họ rất muốn để mọi thứ tự nói lên chính mình khi được yêu cầu một đề bài như thế. Thậm chí, một học viên đặc biệt tận tâm đã thiết kế ra lược đồ để mô tả tất chỉ bằng các thuộc tính có thể đo đếm được, chẳng hạn như độ dày của tất, chu vi phần mắt cá chân và thành phần chính xác của vật liệu. Để giữ cho dữ liệu khách quan, người này đã tránh bất cứ thứ gì liên quan đến phán đoán của con người, chẳng hạn như cảm giác của đôi tất trên da người, trang phục nào có thể phù hợp với chúng hay sự sành điệu của các đôi tất.

TS. Melanie Feinberg chỉ ra rằng, điều nghịch lý mà các học viên của bà không nhận ra trong suốt quá trình nhiệt tình muốn làm đúng là việc mô tả các thứ bằng một số đặc điểm nhất định này thay vì những đặc điểm khác đã là một quyết định mang tính chủ quan sâu sắc.

Đăng số 1306 (số 34/2024) KH&PT