Một nghiên cứu cho thấy sự phân biệt chủng tộc trong phần mềm ra quyết định được sử dụng bởi các bệnh viện ở Mỹ, và nêu ra các cách để cải thiện tình trạng này.

Một thuật toán được sử dụng rộng rãi trong các bệnh viện ở Mỹ để phân bổ chăm sóc sức khỏe cho bệnh nhân đang tỏ ra phân biệt một cách có hệ thống đối với người da đen, theo kết quả của một phân tích mới đây.

Những người da đen có nhu cầu y tế phức tạp ít có khả năng hơn trong việc được giới thiệu đến các chương trình cung cấp dịch vụ chăm sóc tăng cường sơ với những người da trắng bị bệnh tương tự.

Nghiên cứu vừa được công bố trên Science vào ngày 24/10, kết luận rằng thuật toán ít có khả năng phân bổ người người da đen (so với những người da trắng bị bệnh tương đương) cho các chương trình cải thiện việc chăm sóc cho những bệnh nhân có nhu cầu y tế phức tạp. Các bệnh viện và công ty bảo hiểm sử dụng thuật toán để giúp quản lý chăm sóc cho khoảng 200 triệu người ở Mỹ mỗi năm.

Loại nghiên cứu này rất hiếm, bởi vì các nhà nghiên cứu thường không thể truy cập vào các thuật toán độc quyền và các luồng dữ liệu sức khỏe nhạy cảm cần thiết để có thể kiểm tra đầy đủ, Milena Gianfrancesco, nhà dịch tễ học tại Đại học California, San Francisco, người đã nghiên cứu các nguồn gốc sai lệch trong hồ sơ y tế điện tử, cho biết. Nhưng các nghiên cứu nhỏ hơn và một số báo cáo cũng đã ghi nhận việc ra quyết định không công bằng và thiên vị bởi các thuật toán được sử dụng trong mọi thứ, từ tư pháp hình sự đến giáo dục và chăm sóc sức khỏe.

"Đây là tình trạng đáng báo động", Gianfrancesco, người thực hiện nghiên cứu mới nhất về chủ đề này, nói. "Chúng ta cần một cách tốt hơn để thực sự đánh giá sức khỏe của bệnh nhân".

Ziad Obermeyer, người nghiên cứu về máy học và quản lý chăm sóc sức khỏe tại Đại học California, Berkeley, và nhóm của ông đã tình cờ gặp phải vấn đề này trong khi kiểm tra tác động của các chương trình cung cấp thêm nguồn lực và giám sát y tế chặt chẽ hơn cho những người mắc bệnh và có các vấn đề sức khỏe.

Kiểm tra các giả định

Khi Obermeyer và các đồng nghiệp của ông tiến hành kiểm tra thống kê thông thường về dữ liệu mà họ nhận được từ một bệnh viện lớn, họ đã rất ngạc nhiên khi thấy rằng những người tự nhận mình là người da đen thường được gán điểm rủi ro thấp hơn những người da trắng bị bệnh tương đương. Do đó, người da đen ít có khả năng được giới thiệu đến các chương trình cung cấp dịch vụ chăm sóc cá nhân hóa hơn.

Các nhà nghiên cứu phát hiện ra rằng thuật toán gán điểm rủi ro cho bệnh nhân trên cơ sở tổng chi phí chăm sóc sức khỏe tích lũy trong một năm. Họ nói rằng giả định này có thể có vẻ hợp lý vì chi phí chăm sóc sức khỏe cao hơn thường liên quan đến nhu cầu chăm sóc sức khỏe lớn hơn. Người da đen trung bình trong bộ dữ liệu mà các nhà khoa học sử dụng có chi phí chăm sóc sức khỏe tổng thể tương đương với người da trắng trung bình.

Nhưng xem xét kỹ hơn các dữ liệu cho thấy rằng người da đen trung bình mắc bệnh nặng hơn người da trắng trung bình, với tỷ lệ mắc các bệnh như tiểu đường, thiếu máu, suy thận và huyết áp cao. Kết hợp lại với nhau, dữ liệu cho thấy rằng dịch vụ chăm sóc dành cho người da đen có chi phí trung bình ít hơn 1.800 đô la Mỹ mỗi năm so với dịch vụ chăm sóc dành cho người da trắng có cùng số vấn đề về sức khỏe mãn tính.

Các nhà khoa học suy đoán rằng việc giảm khả năng tiếp cận chăm sóc này là do ảnh hưởng của phân biệt chủng tộc có hệ thống, từ sự mất lòng tin của hệ thống chăm sóc sức khỏe đến sự phân biệt chủng tộc trực tiếp của các nhà cung cấp dịch vụ chăm sóc sức khỏe.

Và bởi vì thuật toán gán cho mọi người các mức rủi ro trên cơ sở chi phí, những thành kiến nói trên đã được truyền lại trong kết quả của nó: người da đen phải ốm hơn người da trắng trước khi được giới thiệu thêm trợ giúp. Chỉ có 17,7% bệnh nhân được thuật toán chỉ định để được chăm sóc tăng cường là người da đen. Các nhà nghiên cứu tính toán rằng tỷ lệ này sẽ là 46,5% nếu thuật toán không thiên vị.

Tìm kiếm giải pháp

Khi Obermeyer và nhóm của ông báo cáo phát hiện của họ cho các nhà phát triển thuật toán, công ty đã lặp lại phân tích của họ và tìm thấy kết quả tương tự. Obermeyer đã chọn giữ bí mật tên của công ty, và hiện đang làm việc với công ty mà không lấy thù lao chỉ để cải thiện thuật toán.

Ông và nhóm của mình đã làm việc với công ty để tìm ra các biến khác ngoài chi phí chăm sóc sức khỏe có thể được sử dụng để tính toán nhu cầu y tế của một người và lặp lại phân tích của họ sau khi điều chỉnh thuật toán cho phù hợp. Họ thấy rằng việc thực hiện những thay đổi này đã giảm 84% sai lệch.

Nhưng việc tìm ra các bản sửa lỗi như vậy cho các thuật toán - trong chăm sóc sức khỏe và hơn thế nữa - không đơn giản, Obermeyer nói. "Những giải pháp đó rất dễ hiểu theo nghĩa kỹ thuật phần mềm: bạn chỉ cần chạy lại thuật toán với một biến khác", ông nói. "Phần khó khăn là: Làm thế nào để bạn giải quyết được sự thiên vị và bất công vốn có từ trong xã hội?"

Điều này một phần là do sự thiếu đa dạng trong đội ngũ các nhà thiết kế thuật toán và thiếu đào tạo về bối cảnh xã hội và lịch sử liên quan đến công việc của họ, Ruha Benjamin, tác giả của Race After Technology (2019) và một nhà xã hội học tại Đại học Princeton ở New Jersey, cho biết.

"Chúng ta không thể tin tưởng vào những người hiện đang thiết kế các hệ thống này trong việc lường trước hoặc giảm thiểu tất cả các tác hại liên quan đến tự động hóa", cô nói.

Rayid Ghani, một nhà khoa học máy tính tại Đại học Carnegie Mellon ở Pittsburgh, Pennsylvania, cho biết, các nhà phát triển nên chạy các bài kiểm tra, như các bài kiểm tra do nhóm Obermeyer thực hiện, trước khi triển khai một thuật toán ảnh hưởng đến cuộc sống của con người. Loại kiểm toán đó giờ đã phổ biến hơn, ông nói, vì các báo cáo về các thuật toán thiên vị đã trở nên phổ biến hơn.

Ông nghĩ rằng kết quả của các cuộc kiểm toán này phải luôn được so sánh với việc ra quyết định của con người trước khi cho rằng một thuật toán đang đưa ra quyết định kém hơn một người làm công việc tương tự.

Ghani nói rằng nhóm của ông đã thực hiện các phân tích chưa được công bố, trong đó so sánh các thuật toán được sử dụng trong y tế công cộng, tư pháp hình sự và giáo dục với việc ra quyết định của con người. Họ phát hiện ra rằng các hệ thống máy học đã thiên vị - nhưng vẫn ít hơn so với con người.

"Chúng ta vẫn đang sử dụng những thuật toán thiên vị", Ghani nói. "Chúng ta đã thử nghiệm và biết rằng chúng rất kinh khủng, nhưng chúng ta vẫn sử dụng chúng để đưa ra quyết định thực sự quan trọng mỗi ngày".

Thiên kiến thuật toán thực chất không phải là một vấn đề mới. Ngay từ những thập niên 70 và 80 của thế kỷ trước, Trường Y khoa Bệnh viện St. George, Vương quốc Anh đã từng bước đầu sử dụng một phần mềm máy tính sử dụng thuật toán để sàng lọc tự động việc tuyển chọn các ứng viên có nguyện vọng theo học tại ngôi trường này. Thuật toán này được thiết kế với khả năng bắt chước các quyết định tuyển sinh mà trường đã thực hiện trong quá khứ. Sau quá trình nghiên cứu đánh giá, kết quả cho thấy, có hơn 60 ứng viên bị loại khỏi danh sách phỏng vấn chỉ vì họ là phụ nữ, hoặc mang tên đến từ các quốc gia không thuộc khối châu Âu. Điểm đáng lo ngại của kết quả đánh giá này nằm ở chỗ, thuật toán được viết ra với mục đích đơn thuần là phát hiện và bắt chước những xu hướng tuyển sinh đã xảy ra trong quá khứ; người lập trình viên thiết kế ra chương trình này không hề có ý định phân biệt hay kỳ thị phụ nữ hay các ứng viên thiểu số đến từ các nước nằm ngoài khu vực châu Âu. Nói theo cách khác, thuật toán có thể làm lộ ra những thiên kiến được hằn sâu trong những quyết định do con người làm ra. Không chỉ vậy, thuật toán còn có khả năng bao bọc những thiên kiến mang tính kỳ thị này dưới cái tên “khách quan” và “khoa học”, góp phần làm tăng sự thiếu công bằng trong các quyết định tự động hóa. Vào năm 1988, Ủy ban về sự bình đẳng chủng tộc của Vương quốc Anh đã kết luận rằng Trường Y St. St. George vi phạm phân biệt chủng tộc và giới tính trong quá trình tuyển sinh, và yêu cầu ngôi trường này ngưng sử dụng phần mềm với thuật toán đã gây nên sự phân biệt với các ứng viên nữ và không mang quốc tịch châu Âu.

Gần đây hơn, vào năm 2015, khi các nhà nghiên cứu tại Đại học Carnegie Mellon sử dụng một công cụ có tên AdFisher để theo dõi và đo đạc mức độ thành công của quảng cáo trực tuyến bằng cách mô phỏng hành vi duyệt web của phái nam và phái nữ khi tìm kiếm việc làm trực tuyến. Họ đã vô cùng bất ngờ khi kết quả cho thấy hệ thống quảng cáo của Google liệt kê các công việc thu nhập cao cho nam giới với tỷ lệ cao hơn gấp sáu lần so với tỷ lệ hiển thị cùng cho phụ nữ. Họ kết luận rằng thuật toán quản lý việc hiển thị quảng cáo việc làm của Google, dù vô tình hay cố tình, đã mang tính kỳ thị giới tính.

Trong một nghiên cứu khác, các nhà nghiên cứu từ Đại học Washington đã phát hiện ra rằng khi người dùng tại Mỹ dùng nhập từ khoá “CEO” vào công cụ Google Image, kết quả tìm kiếm chỉ cho thấy 11% hình ảnh CEO phụ nữ. Tỉ lệ này phản ánh sai hiện thực rằng 27% CEO tại Mỹ là phụ nữ, và do đó góp phần làm hằn sâu tư duy kỳ thị giới tính khiến cho phái nam giữ vững hình ảnh lãnh đạo trong kinh doanh.

Một nghiên cứu thực hiện bởi đại học Harvard vào năm 2012 cũng kết luận rằng quảng cáo cho các dịch vụ trực tuyến giúp tra cứu hồ sơ bắt giữ xuất hiện thường xuyên hơn khi người dùng internet tại Mỹ nhập vào các tên gọi của người Mỹ gốc Phi. Định kiến về giới tính và chủng tộc thường ăn sâu vào các thuật toán tưởng chừng như rất công bằng và minh bạch.



Nguồn:

https://www.nature.com/articles/d41586-019-03228-6