Đây là kết luận do nhóm các nhà khoa học máy tính của Đại học Copenhagen (Đan Mạch) cùng một vài đại học của Mỹ triển khai học máy để phân tích 3,5 triệu cuốn sách bằng tiếng Anh được xuất bản từ năm 1900 đến 2008, bao gồm cả thể loại hư cấu và phi hư cấu. Họ muốn tìm xem liệu có sự khác nhau giữa các loại từ dùng để mô tả đàn ông và phụ nữ trong văn học.
‘Xinh đẹp’ và ‘quyến rũ’ là hai từ được dùng phổ biến nhất để miêu tả phụ nữ . Đối với đàn ông, những từ thường được sử dụng là ‘ngay thẳng’, ‘lý trí’ và ‘dũng cảm”.
Nhà khoa học máy tính Isabelle Augenstein, ĐH Copenhagen chia sẻ: “Chúng ta thấy rõ các từ sử dụng cho phụ nữ thường thiên về ngoại hình hơn các từ sử dụng cho nam giới. Giờ đây, có thể khẳng định nhận thức rộng rãi đó ở mức độ thống kê.”
Nhóm nghiên cứu đã trích xuất tính từ và động từ gắn với danh từ xác định giới tính trong từng cụm từ, ví dụ như ‘nữ tiếp viên hàng không gợi cảm’ hoặc ‘cô gái buôn chuyện', sau đó phân tích xem liệu các từ này mang sắc thái cảm xúc tích cực, tiêu cực hay trung tính và xếp chúng thành từng nhóm.
Các phân tích đã chứng minh rằng những động từ tiêu cực liên quan đến cơ thể và ngoại hình sử dụng ở phụ nữ với tần suất gấp 5 lần so với đàn ông.
Các tính từ tích cực và trung tính liên quan đến cơ thể và ngoại hình cũng được sử dụng gấp 2 lần ở phụ nữ.
Trong khi đó, nam giới thường xuyên được mô tả bằng các tính từ liên quan đến hành vi và phẩm chất cá nhân.
Trước đây, khi các nhà ngôn ngữ học xem xét mức độ phổ biến của ngôn ngữ giới tính và thiên kiến, họ chỉ có thể làm việc với bộ dữ liệu nhỏ hơn. Giờ đây, các nhà khoa học máy tính đã có thể phân tích kho dữ liệu lên tới 11 tỷ từ.
Các mô hình học máy chống lại thiên kiến
Các thuật toán được sử dụng để tạo ra những loại máy móc, ứng dụng hiểu ngôn ngữ con người thường được cung cấp dữ liệu dưới dạng tài liệu văn bản sẵn có trực tuyến. Đây là công nghệ cho phép điện thoại thông minh nhận ra giọng nói của người dùng hay cho phép Google cung cấp các từ khóa đề xuất.
"Các thuật toán chạy để tìm kiếm các khuôn mẫu và bất kì khi nào tìm được một khuôn mẫu, nó sẽ hiểu rằng thứ gì đó là 'đúng'. Nếu có bất kỳ khuôn mẫu nào liên quan đến ngôn ngữ thiên vị thì kết quả thuật toán cho ra cũng sẽ thiên vị như thế. Có thể nói, hệ thống sẽ chấp thuận theo ngôn ngữ mà mọi người sử dụng, bao gồm cả các khuôn mẫu giới tính và định kiến”, Augenstein nói.
Cô đưa ra một ví dụ quan trọng: "Nếu ngôn ngữ chúng ta sử dụng để mô tả nam và nữ khác nhau, chẳng hạn trong thư giới thiệu nhân viên, nó sẽ ảnh hưởng đến việc ai được nhận vào làm nếu công ty sử dụng hệ thống công nghệ thông tin để sắp xếp đơn xin việc.”
Khi trí tuệ nhân tạo và công nghệ xử lý ngôn ngữ trở nên nổi bật, điều quan trọng là phải nhận thức được ngôn ngữ giới tính. Augenstein cho biết, họ “cố gắng tính đến điều này khi phát triển các mô hình học máy bằng cách sử dụng các văn bản ít bị thiên kiến, hoặc buộc mô hình phải bỏ qua hay chống lại thiên kiến.”
Các nhà nghiên cứu cho biết các phân tích này vẫn còn hạn chế, bởi các lý do như không tính đến việc ai là người viết các đoạn văn riêng lẻ hay sự khác biệt về mức độ thiên kiến phụ thuộc vào thời điểm cuốn sách xuất bản trong chuỗi giá trị thời gian của tập dữ liệu.
Hơn nữa, nó cũng không phân biệt giữa các thể loại sách, ví dụ như tiểu thuyết lãng mạng hay phi hư cấu. Nhóm nghiên cứu vẫn đang tiếp tục phát triển để giải quyết những vấn đề nêu trên.