Làm thế nào để đảm bảo quyền lợi của các nhà sáng tạo, đồng thời không cản trở sự phát triển công nghệ AI là bài toán khó mà các quốc gia đang tìm cách giải quyết trong quá trình sử dụng dữ liệu có bản quyền để huấn luyện các mô hình AI.

.
.

Trong cuộc đua xây dựng trí tuệ nhân tạo (AI) thông minh hơn, liệu dữ liệu nên được lưu chuyển tự do hay phải trả phí? AI tạo sinh, như một phép màu công nghệ, đã bùng nổ trên sân chơi kỹ thuật số, giúp nâng cao năng suất bằng cách trả lời các câu hỏi, giải quyết các vấn đề phức tạp và tạo ra nội dung trên nhiều lĩnh vực - những khả năng có được nhờ những đột phá trong học máy.

Sự kỳ diệu của AI đi kèm với nhu cầu dữ liệu huấn luyện khổng lồ. Điều này thể hiện rõ qua lượng tham số trong các phiên bản ChatGPT, từ 117 triệu tham số trong GPT-1, đến GPT-2 đã tăng lên 1,5 tỷ, sang GPT-3 thành 175 tỷ và đến GPT-4 ước tính là một nghìn tỷ. Sự gia tăng lượng tham số (các giá trị được điều chỉnh trong quá trình huấn luyện để tối ưu hóa hiệu suất của mô hình) qua bốn thế hệ góp phần giải thích tại sao AI cần các tập dữ liệu khổng lồ. Càng nhiều tham số, các mô hình AI càng hiểu ngữ cảnh và càng tạo ra các phản hồi giống con người trong nhiều chủ đề khác nhau. Tuy nhiên, điều này đòi hỏi lượng dữ liệu huấn luyện tăng theo cấp số nhân. Đến một thời điểm nhất định, các công ty AI sẽ phải thu thập dữ liệu trên toàn bộ internet để tạo ra các mô hình AI có chất lượng cao hơn.

Đằng sau quá trình phát triển các mô hình AI là một cuộc xung đột giữa chủ sở hữu nội dung với các gã khổng lồ công nghệ. Các chủ sở hữu nội dung đã đệ đơn kiện nhiều công ty AI: Getty Images đã kiện Stability AI về việc sử dụng hình ảnh; các tác giả như Sarah Silverman đã kiện Meta và OpenAI vì sử dụng sách của họ mà không xin phép; tờ New York Times và tám tờ nhật báo đã có hành động pháp lý chống lại OpenAI và Microsoft vì sử dụng các bài báo của họ; các nghệ sĩ đã đệ đơn kiện tập thể chống lại Midjourney và Stability AI... Tất cả đều cáo buộc các công ty AI đã sử dụng trái phép các tác phẩm có bản quyền để huấn luyện các mô hình AI.


Việc xây dựng các quy định về bản quyền dữ liệu huấn luyện AI nói riêng cũng như các vấn đề liên quan đến AI nói chung là “một trong những thách thức pháp lý lớn nhất của giữa thế kỷ 21.
GS. Lynda Oswald


Thoạt nhìn, giải pháp có vẻ đơn giản - bắt các gã khổng lồ công nghệ trả tiền cho dữ liệu dùng để huấn luyện AI. Tuy nhiên, theo một số chuyên gia, việc yêu cầu trả phí dữ liệu có nguy cơ thúc đẩy sự phát triển những doanh nghiệp độc quyền, tập trung lợi ích của AI vào tay của các tập đoàn công nghệ giàu có thay vì phổ biến rộng rãi trong xã hội.

Nhưng việc hạn chế quyền truy cập của AI vào kho dữ liệu khổng lồ sẽ cản trở quá trình huấn luyện AI. Nếu AI tự huấn luyện và học hỏi từ các dữ liệu do AI tạo ra hoặc dữ liệu tổng hợp, đầu ra của AI sẽ bị hạn chế, có chất lượng thấp, sai lệch nhiều hơn, dẫn đến ảo giác - quá trình mà các nghiên cứu gọi là “sự sụp đổ mô hình”.

Dữ liệu huấn luyện AI có phải là “sử dụng hợp lý”?

Nhiều người cho rằng các mô hình AI nên được phép sử dụng các cơ sở dữ liệu có bản quyền cho mục đích huấn luyện theo học thuyết “sử dụng hợp lý”. Dan Cahoy, giáo sư luật kinh doanh tại Trường Kinh doanh Smeal thuộc Đại học Penn State, cho biết: “Về cơ bản, có bốn yếu tố để xác định việc sử dụng hợp lý: mục đích và đặc điểm của việc sử dụng, bản chất của tác phẩm được bảo hộ, số lượng và chất lượng của phần được sử dụng, và tác động đến thị trường tiềm năng của tác phẩm gốc”. Theo án lệ của Mỹ, yếu tố đầu tiên (sử dụng mang tính chuyển đổi) và yếu tố thứ tư (tác động thị trường) là quan trọng nhất. Trong yếu tố đầu tiên, việc sử dụng được coi là hợp lý nếu tác phẩm được biến đổi thành một thứ khác biệt về thông điệp hoặc cách sử dụng so với bản gốc. Người ta sẽ xem xét liệu các ý tưởng hoặc giá trị mới có được thêm vào hay không. Sự thay đổi này có thể tạo ra thông tin mới, các yếu tố nghệ thuật, hiểu biết hoặc quan điểm mới chứ không chỉ đơn thuần sao chép bản gốc.

Hiện nay, các mô hình AI tạo sinh được huấn luyện và phát triển trên các tập dữ liệu khổng lồ, sử dụng hàng tỷ tham số được xây dựng bởi phần mềm xử lý các kho lưu trữ khổng lồ gồm hình ảnh và dữ liệu văn bản. “Để hoạt động, trước tiên các mô hình phải học thông quá trình thử và sai với quy mô khổng lồ. Các kỹ sư phải thu thập và xây dựng các cơ sở dữ liệu về các nhiệm vụ mẫu để máy móc thực hành, gọi là tập dữ liệu huấn luyện. Các hệ thống học máy liên tục cần các tập dữ liệu mới để phát triển các phiên bản phần mềm thế hệ mới. Bước đầu tiên trong việc xây dựng các tập dữ liệu là sao chép hàng triệu hình ảnh, video, âm thanh hoặc các dữ liệu dạng văn bản. Hầu hết các dữ liệu này đều là các tác phẩm có bản quyền”, Mark Lemley, giáo sư luật tại Trường Luật Stanford và Giám đốc Chương trình luật, khoa học và công nghệ Stanford, giải thích về quá trình đào tạo các mô hình học máy.

Theo Lemley, AI không cạnh tranh với các tác giả hay nghệ sĩ, vì “nó sử dụng tác phẩm của họ theo một cách hoàn toàn khác. Các hệ thống học máy thường sao chép tác phẩm, không phải nhằm mục đích tiếp cận cách thể hiện sáng tạo (phần tác phẩm được pháp luật bảo vệ), mà sử dụng các phần không được bảo hộ bản quyền của tác phẩm - các ý tưởng, sự kiện và cấu trúc ngôn ngữ của tác phẩm”. Ông đề xuất nguyên tắc “học tập hợp lý”, cho rằng việc sử dụng các tác phẩm có bản quyền để huấn luyện các hệ thống học máy phải được coi là hợp lý ngay cả khi các yếu tố sử dụng hợp lý - bản chất của tác phẩm và số lượng của phần được sử dụng không phù hợp với bốn nguyên tắc nêu trên.

Ví dụ một mô hình AI ngôn ngữ được huấn luyện dựa trên hàng triệu cuốn sách. Nó không quan tâm đến cốt truyện, nhân vật hay chủ đề; thay vào đó, nó học các mẫu ngôn ngữ, bao gồm quy tắc ngữ pháp, cấu trúc câu và mối quan hệ giữa các từ. Tương tự, để một mô hình AI học được hình dáng của một con chó, nó cần phân tích hàng triệu bức ảnh chó. Hệ thống không quan tâm đến bố cục nghệ thuật hay con chó cụ thể trong mỗi bức ảnh - những yếu tố có thể được bảo hộ bản quyền. Thay vào đó, mô hình AI học cách nhận biết các đặc điểm chung như lông, bốn chân, đuôi và hình dạng điển hình của chó. Việc “sao chép nguyên văn” trong quá trình huấn luyện AI chỉ là bước trung gian để tiếp cận “các ý tưởng và yếu tố chức năng” không được bảo hộ của các tác phẩm, giúp mô hình AI học các mẫu và khái niệm tổng quát thay vì chỉ đơn giản là ghi nhớ nội dung cụ thể. Các mô hình AI mã hóa các mẫu từ dữ liệu huấn luyện thành các tham số, tạo ra phản hồi bằng cách sử dụng xác suất đã học chứ không phải bằng cách tham chiếu nội dung đã lưu trữ.

Như vậy, việc sử dụng dữ liệu trong đào tạo AI sẽ được coi là sử dụng hợp lý? Thực ra, vấn đề này vẫn còn nhiều tranh cãi. Nhiều người cho rằng nguyên tắc sử dụng hợp lý - trước đây thường dùng trong trường hợp trích dẫn vài dòng của tác phẩm trong bài viết đánh giá tác phẩm đó - đã trở thành vỏ bọc pháp lý cho vụ đánh cắp tài sản trí tuệ trắng trợn có quy mô lớn nhất trong lịch sử. Thông thường,việc đánh giá một trường hợp có được coi là sử dụng hợp lý hay không sẽ phụ thuộc vào tòa án, và có thể thay đổi tùy theo từng trường hợp cụ thể. Đây là một câu hỏi không dễ trả lời. Nhìn chung, các quốc gia đều đang cố gắng tìm cách cân bằng quyền lợi của các công ty AI cũng như các nhà sáng tạo. “Công ty AI và các nhà sáng tạo cần nhận ra rằng cả hai đều có những lý lẽ thuyết phục về lợi ích công cộng, ứng dụng hứa hẹn của AI tạo sinh với cộng đồng, cũng như tầm quan trọng của các tác phẩm do con người tạo ra”, theo Văn phòng bản quyền Mỹ.

Xây dựng thị trường cấp phép

Để bảo vệ quyền lợi của các tác giả, các công ty AI cần áp dụng các biện pháp nhằm giảm thiểu tình trạng mô hình AI tạo ra kết quả tương tự với các tác phẩm có bản quyền được sử dụng trong quá trình huấn luyện. Họ có thể học hỏi từ những nền tảng đã áp dụng công nghệ để ngăn chặn việc tạo ra các nội dung giống với các tác phẩm có bản quyền hiện nay. Chẳng hạn công cụ bản quyền của YouTube có thể phát hiện những video có nhạc hoặc clip có bản quyền và tự động gỡ bỏ. Các công ty AI cũng có thể xây dựng các bộ lọc thông minh tương tự để ngăn chặn trong trường hợp mô hình AI định tạo ra kết quả gần giống với các phẩm có bản quyền.

Một điều quan trọng cần làm là thiết lập cơ chế cấp phép. Nhiều công ty AI cho rằng họ muốn trả tiền sử dụng dữ liệu huấn luyện AI, tuy nhiên, việc xin phép từng chủ sở hữu dữ liệu riêng lẻ quá phức tạp và gần như bất khả thi. Do vậy, theo một số chuyên gia, giải pháp phù hợp là thành lập các tổ chức đại diện cho các tác giả để đàm phán với các công ty AI.

Việc xây dựng thị trường cấp phép là điều đặc biệt quan trọng khi áp dụng nguyên tắc sử dụng hợp lý về dữ liệu huấn luyện AI ở Mỹ. Văn phòng Bản quyền Mỹ cảnh báo nếu không có hoạt động cấp phép đối với các tác phẩm được dùng để huấn luyện mô hình AI, sẽ không còn thị trường nào bị ảnh hưởng tiêu cực bởi việc sao chép tác phẩm để huấn luyện AI. Do vậy, các công ty AI sẽ có quyền truy cập (miễn phí) vào những nội dung cần thiết cho quá trình huấn luyện mô hình AI theo nguyên tắc sử dụng hợp lý.

Tại tòa án liên bang cách đây một năm, Anthropic, nhà phát triển mô hình AI Claude đã đệ trình ý kiến ​​chuyên gia từ nhà kinh tế học Steven R. Peterson, cho rằng “thị trường cạnh tranh giả định về cấp phép dữ liệu để đào tạo mô hình học máy tiên tiến sẽ không khả thi”.

Tuy nhiên, sự ra đời của các thỏa thuận cấp phép trong thời gian gần đây đã xóa bỏ lập luận này. Hiện nay, OpenAI đã ký kết các thỏa thuận với các công ty truyền thông quốc tế lớn để sử dụng nội dung có bản quyền làm dữ liệu đào tạo. Axel Springer, tờ Le Monde của Pháp và Prisa Media của Tây Ban Nha đã ký kết các thỏa thuận cung cấp tài liệu cho nhà sản xuất ChatGPT để huấn luyện các mô hình AI. Vào tháng tư, Financial Times đã ký một thỏa thuận với OpenAI để cấp phép sử dụng nội dung cho huấn luyện mô hình AI và cho phép ChatGPT trả lời các truy vấn bằng các bản tóm tắt lấy nguồn từ tờ báo này. Tiếp đó, Reuters và Associated Press đã ký kết các thỏa thuận với OpenAI, cũng như Hearst, The Guardian, Conde Nast, Vox, TIME và The Atlantic. Microsoft đã ký một thỏa thuận với USA Today. Perplexity có quyền truy cập vào các tác phẩm của AdWeek, Fortune, Stern, The Independent và Los Angeles Times.

Việc xây dựng các quy định về bản quyền dữ liệu huấn luyện AI nói riêng cũng như các vấn đề liên quan đến AI nói chung là “một trong những thách thức pháp lý lớn nhất của giữa thế kỷ 21”, GS. Lynda Oswald ở Đại học Michigan nhận xét. “Nó liên quan đến vô số vấn đề phức tạp về quyền sở hữu, khả năng tiêu thụ dữ liệu khổng lồ của các mô hình AI, tốc độ phát triển chóng mặt của công nghệ và tốc độ thay đổi luật pháp theo sau, cũng như lợi ích và mục tiêu đa dạng và thường xung đột của các bên liên quan. Việc giải quyết thỏa đáng các yếu tố này sẽ là một nhiệm vụ vô cùng khó khăn”.

Nguồn: Forbes, The Conversation, Tech Policy Press

Bài đăng KH&PT số 1375+1376 (số 51+52)