Phần mềm này không khẳng định chắc chắn liệu một bài báo có phải là ngụy tạo hay không mà chỉ đánh dấu những bài báo đáng ngờ.


Ảnh minh họa.

Papermill Alarm sử dụng một thuật toán học sâu để so sánh ngôn ngữ trong tiêu đề và phần tóm tắt bản thảo với ngôn ngữ trong các bài báo ngụy tạo được "gia công" theo đơn đặt hàng.

Cơ sở dữ liệu dùng để đối chiếu là danh sách các bài báo đã bị phát hiện là do các "xưởng sản xuất giấy/bài báo" (papermill) ngụy tạo nên. Danh sách này được biên soạn bởi các nhà nghiên cứu về liêm chính học thuật, trong đó có Elisabeth Bik và David Bimler. Papermill Alarm sẽ gán cờ đỏ cho các bản thảo có nhiều điểm tương đồng với các bài báo ngụy tạo, cờ màu cam cho những bài có một số điểm tương đồng, và cờ xanh cho những bản thảo "sạch".

Adam Day, giám đốc công ty dịch vụ dữ liệu học thuật Clear Skies ở London, người phát triển Papermill Alarm, cho biết, phần mềm đã phát hiện khoảng 1% các bài báo trong cơ sở dữ liệu trích dẫn PubMed có nội dung tương đồng các bài báo đến từ các papermill.

Nhiều nhà xuất bản đã sử dụng phần mềm và các phương pháp khác để phát hiện gian lận và bài báo ngụy tạo. Ví dụ, một số hệ thống xử lý bản thảo có thể phát hiện và gắn cờ nếu nhiều bài gửi đến từ cùng một máy tính - một dấu hiệu cho thấy một cá nhân hoặc tổ chức đứng đằng sau một số lượng lớn các nghiên cứu. Nhưng cách tiếp cận phân tích văn bản của Day là mới.

Sáu nhà xuất bản đã bày tỏ sự quan tâm đến việc sử dụng Papermill Alarm để sàng lọc bản thảo.

Đến nay, có rất ít ước tính về mức độ phổ biến của các bài báo ngụy tạo. Một báo cáo hồi tháng 6 của Ủy ban Đạo đức Xuất bản ở Eastleigh, Vương quốc Anh, cho rằng 2% các bài báo được nộp cho các tạp chí đến từ các papermill. Và các bài báo này “có nguy cơ làm quá tải quy trình biên tập của một số lượng lớn các tạp chí”, báo cáo đánh giá.

Bimler cho rằng, ngay cả con số 1% mà Day phát hiện trên PubMed đã là quá nhiều. “Những bài báo rác này sẽ được trích dẫn. Mọi người dùng chúng để củng cốnhững ý tưởng sai lầm của họ, thậm chí làm nền tảng cho các chương trình nghiên cứu chắc chắn sẽ đi vào ngõ cụt”, Bimler nói thêm.

Trong khi đó, theo Bik, số lượng thực của các bài báo ngụy tạo trên PubMed có thể còn cao hơn, nhưng hầu hết những bài báo này không được trích dẫn hoặc không có ảnh hưởng. “Nhưng nó làm tổn hại đến uy tín của khoa học và sự tin tưởng mà chúng ta đặt vào các bài báo nghiên cứu", Bik nói.

Nguồn: