Một nhà công nghệ người Mỹ vừa công bố một chỉ mục khổng lồ bao gồm các từ và cụm từ có trong hơn 100 triệu bài báo khoa học - nhiều bài thuộc các tạp chí có trả phí.

Chỉ mục liệt kê tổng cộng 355 tỷ từ và cụm từ, trích xuất từ hơn 100 triệu bài báo khoa học gốc có chứa chúng, có thể giúp các nhà khoa học thu thập một số thông tin chi tiết về nghiên cứu có trong bài báo ngay cả khi họ không thể truy cập bài báo gốc, Carl Malamud, người phát hành chỉ mục, cho biết. Malamud đã phát hành chỉ mục sự bảo trợ của Public Resource, một công ty phi lợi nhuận ở Sebastopol, California, Mỹ, do Malamud thành lập.

Giá trị khai thác lớn

Một số nhà nghiên cứu đã truy cập vào chỉ mục cho biết đây là một bước tiến lớn, giúp họ dễ dàng tìm kiếm hoặc khai thác thông tin từ các bài báo.

Gitanjali Yadav, nhà sinh vật học tính toán tại Đại học Cambridge, Vương quốc Anh, người nghiên cứu các hợp chất hữu cơ dễ bay hơi do thực vật thải ra, cho biết muốn dùng chỉ mục của Malamud để phân tích các hóa chất thực vật được mô tả trong các tài liệu nghiên cứu đã có của thế giới. “Không có cách nào để tôi, hoặc bất kỳ ai, thực nghiệm phân tích hoặc đo dấu vân tay hóa học của từng loài thực vật trên Trái đất. Phần lớn thông tin chúng tôi tìm kiếm đã có sẵn trong các tài liệu được xuất bản. Nhưng các nhà nghiên cứu bị hạn chế do không có quyền truy cập vào nhiều tài liệu," Yadav nói thêm.

Nhà công nghệ Carl Malamud.

Các nhà khoa học máy tính thường khai thác các bài báo đã có để xây dựng cơ sở dữ liệu về gen, thuốc và hóa chất, v.v... Nhưng tốc độ và phạm vi của các nghiên cứu như vậy phụ thuộc vào các nhà xuất bản, và các nhà khoa học máy tính chỉ có thể khai thác các bài báo truy cập mở hoặc những bài báo mà họ (hoặc tổ chức của họ) trả phí. Một số nhà xuất bản đòi hỏi các nhà khoa học máy tính muốn khai thác các bài báo trả phí phải được sự cho phép của nhà xuất bản.

Đã có các công cụ tìm kiếm miễn phí như Google Scholar lập chỉ mục văn bản các bài báo trả phí, nhưng chúng chỉ cho phép người dùng tìm kiếm dựa trên một số loại truy vấn văn bản nhất định và không cho phép tìm kiếm tự động. Do đó các công cụ như vậy không thể dùng cho phân tích máy tính quy mô lớn hoặc các kỹ thuật tìm kiếm chuyên biệt hơn, theo Malamud.

Malamud gọi chỉ mục mới phát hành là "Chỉ mục chung", nhằm giải quyết các vấn đề mà các nghiên cứu phân tích quy mô lớn, hay nghiên cứu như của Yadav, gặp phải.

Chỉ mục chung cho phép bất kỳ ai khai thác thông tin từ các bài báo khoa học đã có. Nhưng chỉ mục chưa có cổng tìm kiếm qua web, vì vậy nếu muốn sử dụng, phải tải các tệp xuống và tự phát triển các chương trình khai thác, tra cứu hoặc tìm kiếm của riêng mình. Malamud hy vọng những ai đã tạo ra công cụ tìm kiếm dùng cho chỉ mục này sẽ chia sẻ cho những người khác.

Ở định dạng nén, chỉ mục nặng gần 5 terabyte, và lên đến 38 terabyte sau khi giải nén. Ngoài các từ và cụm từ trích xuất từ bài báo gốc, chỉ mục cũng bao gồm các bảng thông tin cơ bản của các bài báo như từ khóa, tiêu đề, tác giả và DOI (định danh bài báo). Do đó, sau khi đã xác định được một số thông tin mong muốn, người dùng có thể tìm đến bài báo gốc nếu họ có quyền đọc hoặc muốn trả phí để đọc bản gốc.

Tính hợp pháp của chỉ mục?

Malamud nói thêm, vì chỉ mục không chứa toàn bộ nội dung gốc của các bài báo, mà chỉ có các từ và cụm từ (dài tối đa năm từ), nó không vi phạm bản quyền của nhà xuất bản về việc sử dụng lại các bài báo có trả phí.

Michael Carroll, nhà nghiên cứu pháp lý tại Đại học Washington College of Law, cho rằng việc phân phối chỉ mục này là hợp pháp trên toàn thế giới, vì các tệp không sao chép đủ nhiều chữ trong một bài báo gốc để vi phạm bản quyền của nhà xuất bản. Bản quyền không bảo vệ các dữ kiện và ý tưởng, và các từ và đoạn trích trong Chỉ mục chung chỉ được coi là thông tin truyền đạt lại các dữ kiện thu được từ việc đã đọc các bài báo có bản quyền. Carroll lưu ý: câu hỏi pháp lý duy nhất là việc làm thế nào Malamud có được các bài báo gốc và lấy dữ kiện từ chúng mà không vi phạm các điều khoản của nhà xuất bản.

Malamud cho biết đã lập chỉ mục dựa trên bản sao của 107 triệu bài báo, nhưng không nói làm thế nào để có các bài báo đó. Ông nhấn mạnh, các nhà nghiên cứu sẽ không có quyền truy cập vào văn bản gốc đầy đủ của các bài báo, được lưu trữ ở một địa điểm an toàn, không được tiết lộ ở Mỹ. “Tôi rất tự tin rằng những gì tôi đang làm là hợp pháp. Chúng tôi không làm điều này để kích động một vụ kiện, chúng tôi làm để thúc đẩy khoa học,” Malamud nói.

Một nhà nghiên cứu pháp lý khác, Arul George Scaria tại Đại học Luật Quốc gia Delhi, nói bất kỳ nhà xuất bản nào cố gắng sử dụng luật bản quyền để ngăn các nhà nghiên cứu sử dụng Chỉ mục chung "cuối cùng sẽ thất vọng" và rằng việc phát hành chỉ mục này là một bước tiến lớn, mở ra kho thông tin khổng lồ từ 107 triệu bài báo khoa học.

Nguồn: