Nhiều công ty đã bỏ ra hàng triệu đô la để quản trị nội dung và hạn chế tin giả. Nhưng còn những tin cũ và tin sai vẫn hiện hữu ở đó thì sao? Mới đây, các nhà khoa học từ Viện Công nghệ Massachusetts (MIT) đã phát triển một công cụ có khả năng giải quyết vấn đề này.


Thông tin cũ luôn hiện diện trên internet | Ảnh: CASO
Thông tin đã đăng luôn hiện diện trên Internet sau nhiều năm | Ảnh: CASO

Trên Internet có rất nhiều thông tin lỗi thời, ví dụ như những bài báo viết trong tuần đầu của đại dịch COVID-19 khi chúng ta vẫn chưa biết gì về cách thức lây truyền của virus. Thông tin này vẫn còn nguyên đó, người ta chỉ có thể cố gắng giảm thiểu tác động của chúng bằng cách chôn vùi nó giữa một loạt kết quả tìm kiếm khác hoặc cảnh báo người đọc rằng họ đang xem một nội dung cũ (ví dụ Facebook nhắc nhở mỗi khi người dùng chia sẻ một câu chuyện đã đăng từ hơn 3 tháng trước).

Câu chuyện càng trở nên phức tạp hơn với các mô hình học sâu. Những mô hình này được huấn luyện dựa trên hàng tỷ website, sách vở và bài báo. Điều này có thể dẫn đến kết quả không mong muốn, như khuếch đại các định kiến xã hội có trong tập dữ liệu ban đầu mà mô hình được dạy, hoặc bám vào một số sự kiện cũ mà mô hình đã ghi nhớ nhưng sau đó bị chứng minh là sai.

Vào tháng 6 tới, tại Hội nghị NAACL về ngôn ngữ tính toán, các nhà nghiên cứu từ MIT sẽ giới thiệu một công cụ giúp giảm thông tin sai lệch hoặc lỗi thời trên mạng và tạo ra các mô hình học sâu có thể tự điều chỉnh kết quả theo những biến động thực tế mới nhất.

Tác giả chính của bài báo, nghiên cứu sinh Tal Schuster ở Phòng thí nghiệm trí tuệ nhân tạo và khoa học máy tính (CSAIL) của MIT, cho biết, công cụ này có thể theo dõi tính cập nhật của các bài báo, xác định đâu là những thay đổi quan trọng và đề xuất chỉnh sửa các bài viết liên quan khác.

Quan trọng hơn, khi các bài báo mới được cập nhật, các mô hình tự động xác minh thông tin sẽ trở nên nhạy bén với những nội dung được chỉnh sửa và tự cập nhật dự đoán của chúng cho phù hợp.

Tạo tập dữ liệu

Để xem xét cách đưa thông tin mới vào những bài báo đã có, nhóm nghiên cứu đã xem xét việc chỉnh sửa thông tin ở các trang Wikipedia tiếng Anh phổ biến. Ngay cả với thiết kế mở cho phép bất kỳ ai cũng có thể chỉnh sửa, thì chính cộng đồng hoạt động tích cực đã giúp Wikipedia trở thành nơi an toàn, có nội dung đáng tin cậy - đặc biệt trong những tình huống có nhiều tiến triển mới, chẳng hạn như đại dịch.

Tuy nhiên, hầu hết các chỉnh sửa trong Wikipedia không thêm bớt hoặc cập nhật thông tin mới mà chỉ chỉnh sửa các lỗi văn phong như cách diễn giải, lỗi chính tả, sắp xếp câu. Việc xác định những chỉnh sửa nào liên quan đến thay đổi thực tế mới cực kỳ quan trọng, bởi nó sẽ giúp cho cộng đồng gắn cờ hiệu và kiểm tra chúng cẩn thận hơn.

Schuster cho biết, “Tự động hóa nhiệm vụ này là không hề đơn giản, nhưng người ta cũng không thể kiểm tra thủ công từng lần sửa đổi, bởi có hơn 6.000 lượt chỉnh sửa mỗi giờ trên Wikipedia.”

Nhóm nghiên cứu của Schuster đã thu thập được bộ dữ liệu ban đầu gồm 200 triệu bản sửa đổi tại các trang phổ biến như COVID-19 hoặc về nhân vật nổi tiếng, sau đó sử dụng mô hình học sâu để xếp hạng tất cả các bản chỉnh sửa theo khả năng chúng thể hiện những thay đổi thực tế.

Khoảng 300.000 bản sửa đổi xếp hạng cao nhất được chuyển cho một người chú thích (annotator) xác nhận rằng 1/3 trong số đó có các chỉnh sửa chứa thay đổi thực tế. Các chú thích thu được có thể dùng để tự động hóa hoàn toàn quy trình tương tự trong tương lai.

Để hoàn thành quy trình chú giải thủ công này, nhóm nghiên cứu đã liên hệ với nhà cung cấp giải pháp ngôn ngữ và công nghệ lớn nhất thế giới DataForce. Alex Poulis, giám đốc cấp cao của DataForce, cho biết họ đã lập một nhóm gồm 70 người chú thích và có các quy trình đào tạo, đảm bảo chất lượng cấp công nghiệp, đồng thời sử dụng những công cụ chú thích nâng cao để tối ưu hóa.

Ngoài việc lọc các bản chỉnh sửa có ý nghĩa, những người chú thích này còn được yêu cầu viết một vài mẫu câu tuyên bố mang tính ngắn gọn và hợp lý tại thời điểm trước khi chỉnh sửa, nhưng không còn đúng sau đó nữa.

Quá trình này tạo ra một tập dữ liệu các chỉnh sửa, đi kèm với thông tin rằng tính xác thực của chúng thay đổi theo thời gian, được đặt tên là “Vitamin C” và chia sẻ công khai trên Github. Sau đó, họ chuyển sang phát triển một số mô hình trí tuệ nhân tạo (AI) có thể mô phỏng những chỉnh sửa tương tự và nhạy bén với các nội dung được chỉnh sửa.

Tự động quản trị nội dung

Thông thường, một sự kiện đơn lẻ có thể liên quan đến nhiều bài báo khác nhau. Khi Cục quản lý Thực phẩm và Dược phẩm Hoa Kỳ (FDA) chấp thuận khẩn cấp vaccine mRNA đầu tiên đã dẫn đến một loạt chỉnh sửa nội dung không chỉ trong trang wikipedia về mRNA mà còn hàng trăm trang khác về COVID-19 và đại dịch trên hệ thống.

Trong trường hợp này, copy-paste đoạn thông tin trên mỗi bài viết là không đủ. Thông tin còn phải được bổ sung ở những vị trí liên quan, duy trì tính mạch lạc của toàn văn bản và loại bỏ các chi tiết mâu thuẫn cũ như tuyên bố “chưa có vaccine”.

Xu hướng tương tự cũng có thể thấy trên những website tin tức. Nhiều nhà cung cấp tin tức đã tạo ra những trang web động có thể cập nhật theo thời gian, đặc biệt về các sự kiện đang diễn tiến như bầu cử hoặc thảm họa. Tự động hóa được quy trình này sẽ rất hữu ích và ngăn chặn được các phản ứng chậm trễ.

Kiểm tra các bản chỉnh sửa để tìm kiếm chỉnh sửa nào liên quan đến thay đổi sự thật. | Ảnh: CSAIL
Kiểm tra các bản chỉnh sửa để tìm kiếm chỉnh sửa nào liên quan đến thay đổi thực tế. | Ảnh: CSAIL

Do vậy, nhóm MIT quyết định tập trung giải quyết hai nhiệm vụ. Trước tiên, họ tạo ra một mô hình để bắt chước việc lọc thông tin của người chú thích và có thể phát hiện ra gần 85% bản điều chỉnh có thay đổi thực tế.

Sau đó, họ phát triển một mô hình khác tự động xem xét văn bản, đề xuất chỉnh sửa cho các bài báo cần cập nhật khác. Mô hình sửa đổi văn bản này dựa trên công nghệ chuyển đổi chuỗi (sequence-to-sequence transformer) và được đào tạo để có thể làm theo những ví dụ đã thu thập trong bộ dữ liệu Vitamin C. Họ đã tìm người đọc để đánh giá các bài viết chỉnh sửa do máy tạo ra

Để máy móc tạo được một bản chỉnh sửa ngắn gọn và chính xác là điều không dễ dàng. Các nhà nghiên cứu đã thử sử dụng mô hình ngôn ngữ GPT-3 vốn được huấn luyện trên hàng tỷ văn bản nhưng không có cấu trúc tương phản như bộ dữ liệu Vitamin C để thử nhiệm vụ này.

Mặc dù mô hình GPT-3 có thể tạo ra các câu văn mạch lạc nhưng nó cũng bộc lộ vấn đề khi thêm thắt các sự kiện không được chứng minh. Ví dụ, khi được yêu cầu xử lý một bài viết đã chỉnh sửa về số ca mắc COVID-19 ghi nhận ở Đức, mô hình này đã thêm câu chữ về 20 trường hợp tử vong được báo cáo, mặc dù bài viết nguồn không đề cập đến bất kỳ trường hợp tử vong nào.

Hệ thống xác minh sự thật bám theo thông tin cập nhật

May mắn thay, sự thiếu nhất quán trong đầu ra của mô hình GPT-3 có thể được mô hình xác minh sự thật của MIT phát hiện chính xác.

Những cải tiến gần đây trong công nghệ học sâu đã cho phép phát triển các mô hình tự động xác minh sự thật. Tuy nhiên, các nhà nghiên cứu của MIT phát hiện ra rằng những hệ thống này không phải lúc nào cũng nhạy cảm với những thay đổi trên thực tế.

Trong khoảng 60% số trường hợp tuyên bố sự thật được đưa ra, hệ thống máy tính vẫn không thay đổi phán quyết của nó ngay cả khi có bằng chứng ngược lại. Ví dụ, hệ thống máy tính có thể ghi nhớ rằng thành phố Beaverton Oregon có 80 nghìn cư dân và cho rằng tuyên bố “Hơn 90 nghìn người sống ở Beaverton” là sai, ngay cả khi dân số của nơi này tăng lên.

Một lần nữa, tập dữ liệu Vitamin C tỏ ra hữu ích. Sau nhiều ví dụ về các sự kiện thay đổi theo thời gian, nhóm MIT đã huấn luyện ra các hệ thống xác minh sự thật tuân theo những bằng chứng quan sát được.

Schuster nói: “Chúng ta phải mô phỏng một môi trường năng động để khiến mô hình máy tính tránh bất kỳ niềm tin cố hữu nào. Thay vì dạy mô hình rằng dân số của một thành phố là bao nhiêu, chúng tôi dạy nó cách đọc câu văn hiện tại từ Wikipedia và tìm ra câu trả lời mà nó cần.”

Tiếp theo, nhóm nghiên cứu đang có kế hoạch mở rộng mô hình của họ sang các lĩnh vực mới và hỗ trợ cho ngôn ngữ khác ngoài tiếng Anh. Họ hy vọng tập dữ liệu Vitamin C và các mô hình này sẽ khuyến khích những nhà nghiên cứu và nhà phát triển công nghệ khác xây dựng những hệ thống trí tuệ nhân tạo mạnh mẽ, bám sát thực tế.

Nguồn: