Các chương trình tự động thu thập dữ liệu để đào tạo công cụ trí tuệ nhân tạo đang khiến cho các website học thuật bị quá tải lượng truy cập.

Hồi tháng Hai, kho ảnh trực tuyến DiscoverLife - nơi lưu trữ gần 3 triệu hình ảnh về các loài sinh vật - bắt đầu nhận hàng triệu lượt truy cập mỗi ngày, cao hơn rất nhiều so với thông thường. Lượng truy cập tăng vọt làm cho trang web này chậm đến mức gần như không hoạt động. Thủ phạm ư? Chính là các bot AI.

Theo một nghiên cứu đăng trên Nature vào tháng Năm, bot AI, những chương trình tự động được thiết kế để quét và thu thập nội dung từ các website, đang gây đau đầu cho giới xuất bản học thuật và điều hành các trang lưu trữ bài báo khoa học, cơ sở dữ liệu và tài nguyên trực tuyến khác.

Hình minh họa. Nguồn: Getty

Phần lớn lưu lượng truy cập của bot đến từ các địa chỉ IP ẩn danh, khiến nhiều chủ sở hữu trang web nghi ngờ rằng chúng đang thu thập dữ liệu để huấn luyện các công cụ AI tạo sinh, như chatbot hoặc trình tạo hình ảnh.

“Tình hình lúc này giống như miền Tây hoang dã,” Andrew Pitts - giám đốc điều hành công ty PSI (trụ sở tại Oxford, Vương quốc Anh), chuyên cung cấp kho IP hợp lệ cho cộng đồng xuất bản học thuật, nhận định. “Vấn đề lớn nhất là khối lượng yêu cầu truy cập khổng lồ, khiến hệ thống bị căng thẳng. Nó làm tốn chi phí và gây gián đoạn cho người dùng thực sự.”

Các đơn vị quản lý bị ảnh hưởng đang tìm cách chặn bot và giảm thiểu gián đoạn, nhưng điều này không hề đơn giản, đặc biệt đối với các đơn vị có nguồn lực hạn chế. “Nếu những vấn đề này không được xử lý kịp thời, những đơn vị nhỏ có thể không sống nổi,” Michael Orr - nhà động vật học tại Bảo tàng Lịch sử Tự nhiên Bang Stuttgart (Đức), cảnh báo.

Bot mạng (Internet bot, hay các chương trình máy tính tự động thực hiện các tác vụ trên internet) đã xuất hiện từ nhiều thập kỷ và đôi khi chúng có ích - ví dụ, Google và các công cụ tìm kiếm khác có các bot quét hàng triệu trang web để xác định và truy xuất nội dung. Nhưng sự bùng nổ của AI tạo sinh đã dẫn đến làn sóng bot quét dữ liệu không xin phép.

Năm nay, nhà xuất bản tạp chí y học BMJ (trụ sở tại London) cho biết lượng truy cập từ bot đã vượt quá lượng truy cập từ người dùng thực.

Nhiều nhà xuất bản khác cũng ghi nhận tình trạng tương tự. “Chúng tôi đã chứng kiến sự tăng vọt cái mà chúng tôi gọi là lượng truy cập từ 'bot xấu',” theo Jes Kainth - giám đốc dịch vụ của Highwire Press (Anh), một dịch vụ chuyên về các ấn phẩm học thuật. “Đây là vấn đề nghiêm trọng.”

Hiệp hội Các kho lưu trữ truy cập mở (COAR) cho biết hơn 90% trong số 66 thành viên được khảo sát đã từng bị bot AI quét nội dung, và khoảng 2/3 gặp sự cố gián đoạn dịch vụ. “Các kho truy cập mở vốn hoan nghênh việc tái sử dụng nội dung,” Kathleen Shearer - giám đốc điều hành COAR, nói. “Nhưng một số bot hoạt động quá mạnh, gây ra các sự cố gián đoạn dịch vụ và các vấn đề vận hành.”

Một yếu tố thúc đẩy sự xuất hiện tràn lan của bot AI là việc ra mắt mô hình ngôn ngữ lớn (LLM) của Trung Quốc mang tên DeepSeek. Trước đó, đa phần LLM cần sức mạnh tính toán khổng lồ để được tạo ra. Nhưng các nhà phát triển DeepSeek đã cho thấy có thể tạo ra một LLM cạnh tranh được với các công cụ AI tạo sinh phổ biến với ít tài nguyên hơn, khởi đầu cho sự bùng nổ các bot tìm cách thu thập dữ liệu cần thiết để đào tạo loại mô hình này.

Website học thuật trở thành mục tiêu lý tưởng do chứa loại nội dung rất giá trị với các nhà phát triển AI. “Nếu nội dung của bạn mới và có tính chuyên sâu, nó cực kỳ hấp dẫn với người đang xây dựng chatbot AI,” Will Allen - phó chủ tịch về bảo mật AI tại Cloudflare (Mỹ), một nhà cung cấp dịch vụ web có trụ sở tại San Francisco, nói. Dù nhiều tạp chí có tường phí (paywall), nhưng “những kẻ tấn công tinh vi vẫn có cách vượt qua”.

Josh Jarrett - phó chủ tịch cấp cao phụ trách tăng trưởng AI tại nhà xuất bản Wiley (Mỹ), cho biết bot đang cố lấy cả nội dung truy cập mở lẫn nội dung trả phí. Tháng Tư vừa qua, Wiley đã ra thông báo nhấn mạnh rằng các nhà phát triển AI cần xin phép trước khi trích xuất nội dung có bản quyền.

Các website học thuật đang tìm kiếm giải pháp kỹ thuật để đối phó. Tuy nhiên, ngăn chặn bot thu thập dữ liệu trái phép mà không ảnh hưởng đến người dùng hợp pháp là bài toán khó. Một cách làm tiêu chuẩn là tích hợp tệp robots.txt vào mã của trang web để hướng dẫn bot biết những gì chúng được hoặc không được làm. Nhưng bot có thể được lập trình để bỏ qua các hướng dẫn này.

Một phương án khác là chặn tất cả hành vi giống bot, nhưng điều này lại gây cản trở cho người dùng thật. Ví dụ, các học giả thường truy cập tạp chí qua proxy của thư viện, có nghĩa là hàng nghìn yêu cầu có thể đến từ một địa chỉ IP duy nhất - và cách này giống cách của bot. “Chúng tôi phải cân nhắc giữa bảo vệ hệ thống và đảm bảo khách hàng vẫn truy cập được,” Ian Mulvany, giám đốc công nghệ của BMJ, nói. “Rất phiền phức và mất công theo dõi.”

Các trang web cũng có thể chặn từng bot cụ thể, nhưng trước tiên cần xác định đâu là bot “xấu”. Cloudflare và PSI đang nỗ lực xây dựng một danh sách như vậy. Tuy nhiên, nhiều bot AI mới chưa được nhận diện, khiến việc phân biệt càng khó khăn.

Dù đã có nhiều công cụ ngăn ngừa, vấn đề bot AI vẫn không ngừng phát sinh, và các biện pháp hiện tại vẫn chưa đủ để ngăn chặn hoàn toàn hoạt động thu thập dữ liệu web không mong muốn. “Chúng ta thật sự cần các thỏa thuận quốc tế về việc sử dụng AI một cách công bằng và tôn trọng các nguồn tài nguyên như vậy,” Orr kết luận. “Nếu không, sau này sẽ không còn tài nguyên nào để thể huấn luyện các bot nữa.”



Nguồn: