Trang chủ Chính sách

Chính sách

Bản quyền dữ liệu đào tạo AI?

04/07/2024 13:30

Sự xuất hiện của những công nghệ mới như AI tạo sinh khiến bài toán cân bằng lợi ích trong bảo hộ tác quyền trở nên nan giải hơn bao giờ hết.

Cuối năm 2023, New York Times - một trong những tờ báo lớn nhất của Mỹ, đã đâm đơn kiện OpenAI - công ty đứng sau ChatGPT, và Microsoft - nhà đầu tư của OpenAI. Theo cáo buộc, các công ty này đã sử dụng hàng triệu bài báo của New York Times để đào tạo các mô hình AI có khả năng sinh ra các sản phẩm thay thế báo chí, đe dọa năng lực cung cấp thông tin báo chí chất lượng mà họ đang làm. “Luật bản quyền bảo vệ báo chí và nội dung của chúng tôi. Nếu Microsoft và OpenAI muốn sử dụng tác phẩm của chúng tôi vì mục đích thương mại, luật yêu cầu họ trước tiên phải xin phép chúng tôi. Họ đã không làm như vậy”, theo New York Times.

Đây chỉ là một trong nhiều vụ kiện đang diễn ra trước bối cảnh trí tuệ nhân tạo tạo sinh (AI tạo sinh - Generative AI) đang bùng nổ trên toàn thế giới. Sau thành công của ChatGPT - chatbot của Công ty OpenAI (Mỹ), hàng loạt các công cụ AI tạo sinh tương tự đã được phát triển. Việt Nam cũng bắt kịp xu hướng này với các công cụ “ChatGPT phiên bản Việt” như ViGPT của VinBigdata, Cốc Cốc AI Chat của Cốc Cốc… Điểm chung của các hệ thống AI tạo sinh là có khả năng tạo ra văn bản, hình ảnh hoặc các nội dung khác dựa trên yêu cầu của người dùng, với mức độ chính xác và lưu loát cao, thậm chí đôi lúc còn khó phân biệt với kết quả do con người tạo ra.

Đằng sau mỗi phản hồi thông minh từ các chatbot như ChatGPT là vô vàn dữ liệu được lấy từ nhiều nguồn trên thế giới. Về bản chất, AI tạo sinh sử dụng các kỹ thuật học máy để học các mô hình và cấu trúc của dữ liệu đầu vào, trên cơ sở nguồn dữ liệu này, mô hình sẽ phân tích các mẫu, xu hướng và mối tương quan để hiểu đc nguyên tắc chi phối tạo ra một định dạng thông tin cụ thể nào đó (kỹ thuật “text and data mining” - TDM). Muốn tạo ra các sản phẩm AI tạo sinh thế hệ mới ngày càng thông minh, các nhà phát triển sẽ cần một lượng dữ liệu rất lớn, đa dạng và phù hợp cho quá trình đào tạo mô hình.

Bên cạnh những dữ liệu truy cập mở miễn phí, rất nhiều dữ liệu đầu vào dùng để huấn luyện AI tạo sinh là những tác phẩm đang được bảo hộ tác quyền. Liệu các nhà phát triển AI có được sử dụng tự do hay sẽ phải xin phép và trả tiền bản quyền cho các tác phẩm này? “Hiện nay, có hai xu hướng, một là ủng hộ, hai là phản đối việc bảo hộ tác quyền cho các dữ liệu dùng để huấn luyện AI tạo sinh”, ThS. Nguyễn Thị Lâm Nghi, giảng viên trường Đại học Kinh tế - Luật (ĐHQGTP.HCM) nhận xét trong một tọa đàm về tác quyền vào cuối tháng sáu vừa qua. Việc nhận định đúng - sai giữa hai phe không hề đơn giản, bởi bản chất của cuộc tranh luận này là vấn đề cân bằng lợi ích trong bảo hộ tác quyền.

Việc ứng dụng nguyên tắc sử dụng hợp lý (fair use) là một trong những nguyên tắc cơ bản của luật sở hữu trí tuệ, liên quan đến quyền sử dụng tác phẩm trong trong một số trường hợp nhất định mà không cần sự cho phép của tác giả hay chủ sở hữu tác phẩm. Nguyên tắc này phổ biến ở nhiều quốc gia như Mỹ. Ở Việt Nam, nguyên tắc sử dụng hợp lý được thể hiện qua những quy định về ngoại lệ không xâm phạm quyền tác giả hoặc sử dụng tác phẩm đã công bố không phải xin phép, không phải trả thù lao.

Xung đột quyền lợi giữa các bên

Theo truyền thống, mục đích của bảo hộ tác quyền, cũng như quyền sở hữu trí tuệ nói chung là nhằm bảo vệ lợi ích của các tác giả, khuyến khích hoạt động sáng tạo. Quá trình tạo ra một tác phẩm đòi hỏi đầu tư không ít công sức, tiền bạc và thời gian, do vậy, họ phải nhận được quyền và lợi ích xứng đáng. Tuy nhiên, việc sử dụng dữ liệu để huấn luyện AI tạo sinh cho mục đích thương mại mà không trả tiền bản quyền đang đi ngược lại với nguyên tắc này, ảnh hưởng đến quyền lợi của các tác giả.

Hơn nữa, nhiều người cho rằng, AI tạo sinh có thể dẫn đến sự cạnh tranh không công bằng. Các công cụ AI tạo sinh hiện nay có thể sản xuất những nội dung gần tương đồng với những nội dung do con người tạo ra, trong thời gian ngắn và tốn ít chi phí hơn. Vì vậy, nhiều nơi đã dùng AI tạo sinh để thay thế một phần công việc của con người. Chẳng hạn, một số tờ báo hiện nay đã dùng các bức tranh của AI để minh họa thay thế cho các bức tranh do người vẽ. “Người ta cho rằng đó là một sự bất công, vì các công cụ AI vừa dùng miễn phí dữ liệu huấn luyện, không xin phép, không trả tiền, sau đó lại cạnh tranh trực tiếp với những người sáng tạo”, ThS. Nguyễn Thị Lâm Nghi cho biết.

Dù chưa khẳng định cụ thể, song một số nơi đã tiếp cận theo hướng ủng hộ bảo vệ tác quyền của dữ liệu huấn luyện AI, tiêu biểu là Liên minh châu Âu (EU). Ngay từ lúc ban hành Chỉ chị 2019/790 về bản quyền và quyền liên quan trong Thị trường chung kỹ thuật số (EU-DSM) cách đây năm năm, EU đã đề cập đến vấn đề này trong điều 3, quy định về việc dùng dữ liệu để huấn luyện AI tạo sinh mà không cần trả tiền bản quyền nếu đáp ứng các điều kiện: chủ thể áp dụng là các tổ chức nghiên cứu và tổ chức di sản văn hóa; mục đích nghiên cứu khoa học, phi lợi nhuận; nhà phát triển AI tạo sinh phải có quyền truy cập hợp pháp (quyền truy cập vào nội dung dựa trên chính sách quy cập mở hoặc thông qua các thỏa thuận hợp đồng giữa chủ bản quyền và tổ chức nghiên cứu hoặc tổ chức di sản văn hóa, chẳng hạn như đăng ký hoặc thông qua các phương tiện hợp pháp khác) với dữ liệu đó.

Tương tự, theo điều 4 của chỉ thị, các nhà phát triển AI tạo sinh chỉ được dùng các tác phẩm mà chủ sở hữu không tuyên bố rõ ràng về bảo lưu tác quyền của họ. “Hay nói cách khác, chủ thể quyền có thể cấm các nhà phát triển tiếp cận, thu thập, sử dụng tác phẩm để huấn luyện AI tạo sinh”, ThS. Nguyễn Thị Lâm Nghi phân tích. “Với cách tiếp cận ở ở điều 3 và điều 4, nhiều người cho rằng đây sẽ là một thách thức rất lớn với các nhà phát triển AI tạo sinh, họ có thể sẽ phải trả một khoản phí rất lớn để có được dữ liệu đầu vào”.

Cuối năm 2023, New York Times - một trong những tờ báo lớn nhất Hoa Kỳ, đã đâm đơn kiện OpenAI - công ty đứng sau ChatGPT, và Microsoft - nhà đầu tư của OpenAI.

Đạo luật AI do EU mới ban hành năm nay tiếp tục củng cố quan điểm này. Theo điều 53.1, các nhà phát triển AI tạo sinh phải soạn thảo và công khai bản tóm tắt đầy đủ chi tiết về nội dung được sử dụng để đào tạo mô hình AI có mục đích chung, theo mẫu do văn phòng AI cung cấp. “Mục tiêu của điều này là muốn minh bạch hóa các dữ liệu mà các nhà phát triển AI tạo sinh đã dùng để huấn luyện mô hình của họ, nhờ đó, chủ sở hữu tác quyền sẽ biết ai để đòi phí tác quyền của người đó”, theo ThS. Nguyễn Thị Lâm Nghi. “Đạo luật AI của EU đã mở ra cơ hội để chủ sở hữu tác quyền có thể yêu cầu các nhà phát triển AI tạo sinh phải có trách nhiệm trả phí cho tác phẩm”.

Tuy nhiên, nhiều người lo ngại việc nghiêng về bảo hộ tác quyền sẽ tạo ra rào cản trong phát triển công nghệ. “Để huấn luyện AI tạo sinh cần nguồn dữ liệu rất lớn, việc trả phí tác quyền sẽ là một gánh nặng chi phí khổng lồ, có thể khiến các công ty e dè đầu tư vào lĩnh vực này. Nhiều quan điểm phê phán khi EU áp đặt trách nhiệm nặng nề như vậy với các nhà phát triển AI tạo sinh, có thể dẫn đến nguy cơ lách luật bằng cách tìm những nguồn tài liệu giá trị thấp, miễn phí, có khả năng bị sai sót, lạc hậu, để tiết kiệm chi phí, dẫn đến mô hình AI không đảm bảo chất lượng. Hoặc họ sẽ rời bỏ thị trường EU để tìm đến những nơi cởi mở hơn”, ThS. Nguyễn Thị Lâm Nghi phân tích.

Nguyên tắc sử dụng hợp lý

Có thể thấy, cơ chế bảo hộ quyền tác giả truyền thống vẫn đang bỡ ngỡ trước sự phát triển nhanh chóng của những công nghệ mới như AI tạo sinh. Thậm chí, không ít nhà nghiên cứu cho rằng AI tạo sinh đang đẩy bản quyền vào một cuộc khủng hoảng. Đơn cử ở Mỹ, chỉ trong năm 2023 đã có hơn một chục vụ kiện về bản quyền liên quan đến AI, tăng gấp nhiều lần so với các năm trước. Do vậy, năm ngoái, Văn phòng bản quyền Mỹ đã tiến hành đánh giá toàn diện về toàn bộ hệ thống bản quyền trong 50 năm qua, tập trung vào AI tạo sinh. “Nói một cách đơn giản, sự phát triển của Ai tạo sinh buộc chúng ta phải thay đổi cách thức, địa điểm và đối tượng áp dụng tác quyền”, GS. Kate Crawford tại ĐH Nam California, viết trên tạp chí Issues in Science and Technology.

Dễ thấy nhất là việc ứng dụng nguyên tắc sử dụng hợp lý (fair use). Đây là một trong những nguyên tắc cơ bản của luật sở hữu trí tuệ, liên quan đến quyền sử dụng tác phẩm trong trong một số trường hợp nhất định mà không cần sự cho phép của tác giả hay chủ sở hữu tác phẩm. Nguyên tắc này phổ biến ở nhiều quốc gia như Mỹ. Ở Việt Nam, nguyên tắc sử dụng hợp lý được thể hiện qua những quy định về ngoại lệ không xâm phạm quyền tác giả hoặc sử dụng tác phẩm đã công bố không phải xin phép, không phải trả thù lao. Chẳng hạn như mọi người được sao chép tác phẩm cho mục đích nghiên cứu hoặc giảng dạy, miễn là không gây ảnh hưởng đến việc khai thác bình thường tác phẩm, không gây phương hại đến các quyền của tác giả, chủ sở hữu quyền tác giả, và phải nêu thông tin về tên tác giả và nguồn gốc, xuất xứ của tác phẩm.

Trong các vụ kiện về tác quyền đối với dữ liệu huấn luyện AI tạo sinh, hầu hết bị đơn đều lập luận dựa trên nguyên tắc này, cho rằng việc dùng dữ liệu để huấn luyện AI tạo sinh là sử dụng hợp lý. Khác với Việt Nam liệt kê các trường hợp cụ thể, một số quốc gia như Mỹ xem xét hành vi sử dụng hợp lý dựa trên các tiêu chí như mục đích và đặc điểm sử dụng. “Nhiều người cho rằng cách sử dụng dữ liệu của AI tạo sinh khác với cách sử dụng tác phẩm của con người. Cụ thể, việc dùng dữ liệu để huấn luyện các mô hình AI thuộc phạm trù ý tưởng chứ không mang tính biểu đạt. Trong khi đó, nguyên tắc bảo hộ tác quyền là chỉ bảo hộ hình thức chứ không bảo hộ ý tưởng, nên họ cho rằng việc sử dụng dữ liệu cho AI tạo sinh không thuộc phạm vi điều chỉnh của quyền tác giả”, ThS. Nguyễn Thị Lâm Nghi cho biết. Hơn nữa, khi sáng tạo ra tác phẩm, có lẽ chẳng mấy tác giả nghĩ đến việc dùng làm dữ liệu đầu vào cho các mô hình AI. “Dựa trên những án lệ của Mỹ, họ cho rằng việc sử dụng như vậy có mục đích biến đổi, phù hợp với nguyên tắc sử dụng hợp lý”.

Tuy nhiên, không ít người cho rằng cách tiếp cận như vậy đang thể hiện sự khủng hoảng của học thuyết sử dụng hợp lý. Mục tiêu của nguyên tắc này là tạo điều kiện cho cộng đồng tiếp cận tác phẩm, nhưng nếu chiếu theo cách áp dụng của những nhà phát triển AI tạo sinh, học thuyết sử dụng hợp lý lại phục vụ cho thiểu số các tập đoàn công nghệ lớn.

Trước thực trạng này, các chuyên gia đã đề xuất một số giải pháp như cải cách nguyên tắc sử dụng hợp lý, thay đổi chế định liên quan như cấp quyền người dùng cuối, hoặc cơ chế thu tiền bản quyền qua đánh thuế… nhưng có lẽ, còn rất lâu, cuộc tranh luận về bản quyền và AI tạo sinh mới ngã ngũ. “Cơ chế bảo hộ tác quyền thực ra đã tiềm ẩn xung đột ngay từ thời điểm ra đời rồi, sự phát triển của những công nghệ mới như AI tạo sinh chỉ khuếch đại những xung đột đó lên thôi. Vấn đề là các nhà lập pháp sẽ ứng xử như thế nào trước các xung đột mang tính bản chất trong lĩnh vực tác quyền như vậy?”, ThS. Nguyễn Thị Lâm Nghi nhận xét.

Đăng số 1299 (số 27/2024) KH&PT

Thanh An

TIN TIÊU ĐIỂM

CHUYÊN MỤC