Nhiều nghiên cứu và ứng dụng công nghệ nhận diện khuôn mặt đang bị chỉ trích vì thu thập và sử dụng dữ liệu cho các mục đích thương mại hoặc quân sự mà không có sự đồng thuận của người bị thu thập.


Ảnh ghép từ MegaFace, bộ dữ liệu đã thu thập hình ảnh khuôn mặt trực tuyến. Hình ảnh bị che để bảo vệ quyền riêng tư của người bị thu thập hình ảnh.

Những khối dữ liệu lớn chưa được đồng thuận

Để các thuật toán nhận dạng khuôn mặt hoạt động, cần đào tạo và thử nghiệm chúng trên các tập dữ liệu hình ảnh lớn, lý tưởng nhất là khuôn mặt được chụp nhiều lần trong các điều kiện ánh sáng khác nhau và ở các góc độ khác nhau. Những năm 1990 và 2000, nhà khoa học thường yêu cầu tình nguyện viên chụp những bức ảnh này - nhưng bây giờ hầu hết các bên nghiên cứu thu thập hình ảnh khuôn mặt mà không xin phép.

Ví dụ, năm 2015, các nhà khoa học ở Đại học Stanford, California, đã công bố một tập hợp 12.000 hình ảnh từ webcam trong một quán cà phê ở San Francisco. Năm sau, các nhà nghiên cứu ở Đại học Duke, Durham, Bắc Carolina, đã công bố hơn 2 triệu khung hình video (85 phút) ghi lại cảnh sinh viên đi bộ trong khuôn viên nhà trường.

Các bộ dữ liệu lớn nhất thường được thu thập trực tuyến. Năm 2016, các nhà nghiên cứu ở Đại học Washington, Seattle đã đăng một cơ sở dữ liệu có tên MegaFace gồm 3,3 triệu bức ảnh từ trang chia sẻ hình ảnh Flickr. Và các nhà khoa học ở Microsoft Research, Redmond, Washington, đã phát hành bộ dữ liệu lớn nhất thế giới, MSCeleb, bao gồm 10 triệu hình ảnh của gần 100.000 cá nhân, bao gồm nhà báo, nhạc sĩ và học giả, được lấy từ Internet.

Một nghiên cứu gây tranh cãi của các nhà nghiên cứu ở Đại học Duke đã công bố hơn 2 triệu khung hình video ghi lại cảnh đi lại trong khuôn viên trường.

Năm 2019, nghệ sĩ thị giác và nhà nghiên cứu Adam Harvey ở Berlin đã tạo ra một trang web có tên MegaPixels "chỉ mặt" các bộ dữ liệu này và một số bộ dữ liệu khác. Cùng với nhà lập trình Jules LaPlace, ông chứng minh nhiều bộ dữ liệu đã được để mở và được sử dụng để đánh giá, cải thiện các sản phẩm thương mại. Một số bộ dữ liệu đã được các công ty sử dụng trong các dự án quân sự ở Trung Quốc. Sau khi The Financial Times đăng một bài báo về phát hiện của Harvey vào năm 2019, Microsoft và một số trường đại học đã gỡ bỏ bộ dữ liệu của họ.

Harvey nói rằng việc gỡ bỏ các tập dữ liệu dường như đã làm giảm tần suất sử dụng một chút. Nhưng các bộ sưu tập hình ảnh trực tuyến lớn như MSCeleb vẫn được chuyền tay giữa các nhà nghiên cứu, họ vẫn tiếp tục trích dẫn các bộ dữ liệu này, và có khi còn tải chúng lên mạng trở lại. Các nhà khoa học đôi khi khẳng định rằng các tập dữ liệu chỉ được sử dụng cho các nghiên cứu phi thương mại - nhưng một khi dữ liệu và kết quả đã được chia sẻ rộng rãi, thì không thể ngăn các công ty thương mại lấy và sử dụng.

Tháng 10 năm nay, các nhà khoa học máy tính ở Đại học Princeton, New Jersey, đã xác định, có 135 bài báo được xuất bản sau khi bộ dữ liệu của Đại học Duke bị gỡ bỏ và họ kêu gọi giới nghiên cứu đặt ra nhiều hạn chế hơn đối với việc sử dụng các bộ dữ liệu, cũng như yêu cầu các tạp chí ngừng chấp nhận các bài báo sử dụng các bộ dữ liệu đã bị gỡ bỏ.

Về mặt pháp lý, quy định bảo vệ dữ liệu chung (GDPR) của Liên minh châu Âu không cung cấp cơ sở pháp lý cho phép nhà nghiên cứu thu thập ảnh khuôn mặt của các cá nhân để nghiên cứu sinh trắc học mà không có sự đồng ý của họ, theo Catherine Jasserand, nhà nghiên cứu sinh trắc học và luật bảo mật ở Đại học Công giáo Leuven, Bỉ. Nhưng cũng không có hướng dẫn chính thức về cách giải thích GDPR ở điểm này. Tại Mỹ, một số tiểu bang cho rằng các công ty thương mại sử dụng dữ liệu sinh trắc học của một người mà không có sự đồng ý của họ là bất hợp pháp; Illinois là bang duy nhất cho phép các cá nhân kiện hành vi này, kết quả là một số công ty đã phải đối mặt với các vụ kiện tập thể, trong đó có Facebook, IBM, Google, Microsoft, Amazon.

Đồng thuận khi có đủ thông tin

Tháng 9/2019, bốn nhà nghiên cứu đã viết thư cho nhà xuất bản Wiley, yêu cầu rút một bài báo khoa học công bố vào năm 2018, nói về nghiên cứu đào tạo các thuật toán để phân biệt khuôn mặt của người Uyghur (một nhóm dân tộc thiểu số chủ yếu là Hồi giáo ở Trung Quốc) với các nhóm dân tộc Triều Tiên và Tây Tạng. Trong đó, các nhà nghiên cứu không thu thập ảnh trực tuyến, nhưng cho biết họ chụp ảnh của hơn 300 sinh viên 18–22 tuổi người Uyghur, Hàn Quốc và Tây Tạng ở Đại học Dalian Minzu thuộc tỉnh Liêu Ninh, Trung Quốc. Nhiều tháng sau khi nghiên cứu được xuất bản, các tác giả đã bổ sung ghi chú nói rằng các sinh viên đã đồng ý với điều này. Nhưng khẳng định của các nhà nghiên cứu không làm giảm bớt những lo ngại về đạo đức, Yves Moreau, nhà sinh vật học tính toán ở Đại học Công giáo Leuven, nói. Moreau đã gửi thư cho Wiley, yêu cầu rút bài báo về người Uyghur, với lý do không chắc các sinh viên đã được giải thích về mục đích của nghiên cứu, để có đầy đủ thông tin khi chấp thuận. Chẳng hạn như việc dữ liệu và nghiên cứu đó có thể sẽ phục vụ những mục đích nào.

Học sinh đi bên dưới camera giám sát ở Tân Cương, miền tây Trung Quốc.

Moreau đã lập danh mục hàng chục bài báo về quần thể người Uyghur, bao gồm cả nghiên cứu nhận dạng khuôn mặt và các nghiên cứu thu thập DNA. Và tháng 12 năm 2019, Moreau đã viết một bài báo nêu quan điểm trên Nature, kêu gọi rút tất cả các nghiên cứu phi đạo đức trong nghiên cứu sinh trắc học. Kết quả, năm nay, Springer Nature đã rút hai bài báo về giải trình tự DNA vì các tác giả thừa nhận họ đã không có sự đồng thuận từ người Uyghur. Trong khi đó, Wiley cũng tập trung hơn vào sự đồng thuận khi đã có đầy đủ thông tin.

Nguy cơ đạo đức

Các nhà nghiên cứu làm việc với công nghệ nhận dạng hoặc phân tích khuôn mặt chỉ ra rằng nó có nhiều công dụng, chẳng hạn như tìm kiếm trẻ lạc, theo dõi tội phạm, truy cập điện thoại thông minh, giúp robot tương tác với con người, giúp chẩn đoán hoặc theo dõi từ xa. Một số ứng dụng hợp pháp của nhận dạng khuôn mặt và sinh trắc học là cần thiết.

Nhưng các nhà nghiên cứu cũng nhận ra rằng, công nghệ này ẩn chứa những nguy cơ và nên cố gắng chống lại việc sử dụng nó để kiểm soát hoặc hình sự hóa con người. Cộng đồng AI chưa hiểu rõ nghiên cứu của họ có ý nghĩa thế nào trong bối cảnh khoa học đã nhiều lần được sử dụng để hợp thức hóa bạo lực chống lại những nhóm yếu thế, theo Chelsea Barabas, nhà nghiên cứu việc ra quyết định theo thuật toán ở MIT. “Nếu bạn thiết kế một thuật toán nhận dạng khuôn mặt cho nghiên cứu y tế mà không nghĩ đến việc nó có thể được cơ quan thực thi pháp luật sử dụng, thì bạn đang sơ suất,” Barabas nói.

Một số tổ chức bắt đầu yêu cầu các nhà nghiên cứu phải thận trọng hơn. Năm nay, một trong những hội nghị hàng đầu trong lĩnh vực AI, Hội nghị về hệ thống xử lý thông tin mạng thần kinh nhân tạo - NeurIPS, lần đầu tiên đã yêu cầu những cân nhắc về đạo đức như vậy. Các nhà khoa học gửi bài báo đến Hội nghị phải thêm một tuyên bố giải tỏa các mối lo ngại về đạo đức và các kết quả tiêu cực tiềm ẩn trong nghiên cứu của họ. David Ha, nhà nghiên cứu AI ở Google Tokyo, cho biết: "Chỉ riêng việc này thì không giải quyết được toàn bộ vấn đề, nhưng đó là một bước đi đúng hướng." Tạp chí Nature Machine Intelligence cũng đang thử nghiệm một cách tiếp cận mới, yêu cầu tác giả của một số bài báo về máy học gửi kèm bài báo một tuyên bố về các tác động xã hội và các mối lo ngại về đạo đức.

Nguồn: