Năm 1956, Lejaren Hiller, giáo sư và nhà soạn nhạc tại Đại học Illinois Urbana-Champaign, đã lập trình trên chiếc máy tính Illiac I (một máy tính tiên phong được Đại học Illinois chế tạo vào năm 1952) để tạo ra “Illiac Suite - bản nhạc đầu tiên được sáng tác hoàn toàn bằng máy tính điện tử.
Ngày nay, với sự phát triển của sức mạnh tính toán và công nghệ AI tạo sinh (genAI), chúng ta có thể tạo ra những bản nhạc trên trình duyệt web chỉ bằng các câu lệnh trong vài giây. Các mô hình genAI mới như Suno và Udio có thể tạo ra những bản nhạc ấn tượng, với giai điệu, hòa âm và nhịp điệu mượt mà cùng âm sắc được xử lý chuyên nghiệp. Tuy nhiên, khác với Illiac I, các mô hình này được huấn luyện bằng các tác phẩm âm nhạc do con người sáng tác.
Sự xuất hiện của nhạc AI khiến nhiều nghệ sĩ lo ngại về tương lai. Theo một nghiên cứu do Liên minh quốc tế các hiệp hội những nhà soạn nhạc và lời (CISAC) công bố vào tháng 12/2024, thu nhập của các nghệ sĩ có thể giảm hơn 40% trong bốn năm tới khi thị trường âm nhạc do AI sáng tác ngày càng phát triển. Điều này đặt ra câu hỏi làm thế nào để tìm ra cách chi trả công bằng, đảm bảo quyền lợi của nghệ sĩ và không cản trở sự phát triển của các công ty AI?
“Tại Phòng thí nghiệm Âm thanh, âm nhạc và AI (AMAAI) thuộc Đại học Công nghệ và thiết kế Singapore, chúng tôi đang xem xét những phương thức mới để phân phối tiền bản quyền dựa trên các mô hình AI có khả năng phát hiện điểm tương đồng giữa các bản nhạc”, PGS. Dorien Herremans, Trưởng Phòng thí nghiệm AMAAI, cho biết. “Trong bối cảnh âm nhạc AI ngày càng phát triển, nghiên cứu này có thể góp phần tìm ra cách trả tiền bản quyền phù hợp cho các nhà sáng tạo”.
Con người học nhạc như thế nào?
Bộ não con người được hình thành từ khoảng 86 tỷ tế bào thần kinh (neuron), kết nối bằng các đường dẫn gọi là khớp thần kinh (synapse), là nguồn cảm hứng cho các mô hình AI. Trong suốt cuộc đời, chúng ta tiếp xúc với hàng chục nghìn bài hát. Đây là những mô hình để não bộ học hỏi và đưa ra dự đoán bằng cách hình thành các kết nối khớp thần kinh mới và củng cố các kết nối hiện có.
Trong khoa học nhận thức, quá trình này được gọi là học thống kê. Chúng ta càng tiếp xúc nhiều với một số mô hình nhất định - chẳng hạn như quãng năm đúng (do-sol) phổ biến trong âm nhạc phương Tây - những kết nối liên quan sẽ càng trở nên mạnh mẽ hơn. Điều này giúp chúng ta đưa ra những dự đoán về âm nhạc. Chẳng hạn, khi nghe một nốt nhạc chói tai, không thuộc một khóa nhạc nào cả, trái với những dự đoán đã được học từ các mô hình trước đây, chúng ta sẽ nhận ra nó sai.
Đến nay, các mô hình thương mại như Suno và Udio vẫn chưa công khai bộ dữ liệu huấn luyện cũng như chi tiết về các mô hình này. Thực trạng trên đặt ra những câu hỏi quan trọng về vấn đề bản quyền cũng như phát triển AI đạo đức trong ngành công nghiệp âm nhạc.
|
Não bộ không lưu trữ toàn bộ bản nhạc như một bản thu âm. Thay vào đó, bộ não xây dựng các đường dẫn thần kinh mã hóa các hình mẫu và cấu trúc trong âm nhạc, giúp chúng ta nhận biết và dự đoán giai điệu và hòa âm. Khi chúng ta ngân nga hoặc sáng tác một bài hát, chúng ta không nhớ về một bản thu âm cụ thể mà sẽ sáng tạo âm nhạc một cách linh hoạt dựa trên các hình mẫu đã học.
Sáng tác nhạc AI có đạo đức
Mạng lưới học sâu xuất phát từ một ý tưởng tương tự. Mạng lưới thần kinh nhân tạo bắt chước bộ não con người, đặc biệt là lý thuyết kết nối, tạo ra kiến thức bằng cách củng cố các kết nối (synapse) giữa các đơn vị xử lý của não (neuron).
Trong quá trình huấn luyện, mạng lưới thần kinh nhân tạo sử dụng hàng nghìn bản nhạc. Chúng không lưu trữ những tác phẩm này, mà học mối quan hệ thống kê giữa các yếu tố âm nhạc, giống như não bộ con người học các mô hình mẫu thông qua tiếp xúc.
Sau quá trình đào tạo, mạng lưới thần kinh nhân tạo thu được một tập tham số trọng số mã hóa các đường dẫn thống kê cần thiết để định hình cấu trúc âm nhạc. Các trọng số này tương đương với các khớp thần kinh trong não. Khi sáng tác âm nhạc, mạng lưới sẽ thực hiện suy luận. Với đầu vào - thường là một câu lệnh văn bản từ người dùng - nó sẽ lấy mẫu từ phân phối thống kê đã học để tạo ra các chuỗi mới.
Tuy nhiên, các tập trọng số này có thể chứa hàng tỷ tham số, biến chúng thành một hộp đen (hệ thống AI mà người ta không biết rõ hoạt động bên trong) khó diễn giải. Để tìm hiểu các mạng lưới này, các nhà nghiên cứu đã phát triển các kỹ thuật mới như SHAP (SHapley Additive exPlanations) và LRP (Layer-wise Relevance Propagation), nhưng đến nay, chúng ta vẫn chưa hiểu rõ về các mạng lưới phức tạp này.
Điều này dẫn đến tình trạng thiếu minh bạch trong các hệ thống AI thương mại. Do vậy, PGS. Dorien Herremans và cộng sự đã tạo ra Mustango, một mô hình chuyển đổi văn bản thành các tác phẩm âm nhạc nguồn mở có thể kiểm soát, tương tự như MusicGen của Meta. Tuy nhiên, khác với mô hình của Meta, Mustango được đào tạo hoàn toàn dựa trên dữ liệu mở (giấy phép Creative Commons).
Sự cởi mở như vậy là điều hiếm gặp trong lĩnh vực AI. Đến nay, các mô hình thương mại như Suno và Udio vẫn chưa công khai bộ dữ liệu huấn luyện cũng như chi tiết về các mô hình này. Thực trạng trên đặt ra những câu hỏi quan trọng về vấn đề bản quyền cũng như phát triển AI đạo đức trong ngành công nghiệp âm nhạc. Một trong những ví dụ tiêu biểu về vấn đề này là trường hợp Hiệp hội Công nghiệp ghi âm Mỹ (RIAA) kiện Udio và Suno (tháng 6/2024).
Vì mạng neuron nhân tạo không lưu trữ các bài hát dùng trong huấn luyện, mà nội bộ hóa các mẫu thống kê, nên rất khó xác định cụ thể bản nhạc nào được dùng để huấn luyện mô hình. Hơn nữa, các công ty AI có thể dễ dàng xóa dữ liệu, nên việc kiểm tra gần như là không thể.
“Tại Phòng thí nghiệm AMAAI, chúng tôi đang tìm cách giải quyết vấn đề này”, PGS. Dorien Herremans cho biết. “Chúng tôi đang phát triển các kỹ thuật mới như tấn công suy luận thành viên (membership inference attack) và phân tích nhiễu loạn. Chẳng hạn, trong phân tích nhiễu loạn, chúng tôi tạo ra những biến đổi nhỏ trong một bài hát và quan sát phản ứng của mô hình. Nếu mô hình phản ứng mạnh trước những thay đổi nhỏ, có thể thấy AI đã tiếp xúc với bài hát này trong quá trình huấn luyện”.
Tìm mô hình phân phối tiền bản quyền phù hợp
Sự trỗi dậy của các hệ thống genAI dẫn đến một câu hỏi lớn cần giải quyết: làm thế nào để đối xử công bằng với các nghệ sĩ? Nếu tòa án không cho phép tự do sử dụng các tác phẩm âm nhạc có bản quyền để huấn luyện AI, rõ ràng, các công ty cần trả tiền bản quyền cho các dữ liệu âm nhạc được sử dụng để huấn luyện mô hình genAI.
Tuy nhiên, hiện nay vẫn chưa có một cơ chế cấp phép tiêu chuẩn chung trong lĩnh vực này. Sự thiếu rõ ràng về mặt pháp lý khiến các công ty khởi nghiệp và nhóm nghiên cứu nhỏ ở các viện trường không dám mạo hiểm, ảnh hưởng đến quá trình phát triển các mô hình AI của họ. Nếu không tiếp cận được các tập dữ liệu lớn, họ sẽ gặp khó khăn trong việc huấn luyện các mô hình hoặc cung cấp các trọng số dưới dạng mã nguồn mở. Việc thu thập các tập dữ liệu lớn thường đòi hỏi nhiều chi phí, cũng là một thách thức với các đơn vị này.
Ngoài ra, vẫn còn những câu hỏi khác xoay quanh việc thiết kế các mô hình cấp phép sử dụng các tác phẩm âm nhạc. Chẳng hạn, nếu một mô hình được huấn luyện dựa trên một bài hát nổi tiếng của Taylor Swift cùng các bài hát của những nghệ sĩ ít tên tuổi hơn, liệu tất cả sẽ được trả tiền bản quyền như nhau? Điều này có thể không công bằng. Một phương án phù hợp hơn là xem xét trả tiền bản quyền dựa trên mức độ đóng góp của mỗi bài hát trong việc hình thành kết quả đầu ra.
Nếu người dùng nhập câu lệnh “tạo một bài hát giống Taylor Swift”, kết quả đầu ra sẽ là bản nhạc tương tự tác phẩm của Taylor Swift. Trong trường hợp này, chúng ta nên xem xét việc phân phối tiền bản quyền dựa trên sự tương đồng giữa đầu vào - đầu ra, đảm bảo nghệ sĩ có tác phẩm tạo ảnh hưởng lớn nhất đến kết quả đầu ra sẽ được trả tiền tương xứng. Để làm được điều này, chúng ta cần những tiến bộ kỹ thuật, bao gồm các mô hình tương đồng có độ chính xác cao, để tạo ra một mô hình phân phối tiền bản quyền linh hoạt và công bằng.
Xử lý ngôn ngữ tự nhiên (NLP) có thể là giải pháp phù hợp để đo lường mức độ tương đồng giữa các điểm dữ liệu. Do các mô hình học máy không thể xử lý trực tiếp các từ, các nhà nghiên cứu ở Phòng thí nghiệm AMAAI đã chuyển đổi các từ thành các vectơ số trước khi đưa vào mô hình - quá trình nhúng. Về cơ bản, các vectơ này là các tọa độ đa chiều. Các nhà nghiên cứu phát hiện trong các mô hình ban đầu như word2vec, các từ xuất hiện ở các ngữ cảnh tương tự có vị trí vectơ tương tự, theo đúng giả thuyết ngữ nghĩa phân tán.
Trong lĩnh vực âm nhạc, họ sử dụng quá trình nhúng tương tự để biểu diễn âm thanh. “Chúng tôi đang nghiên cứu tinh chỉnh để tạo ra các chỉ số đo lường độ tương đồng, có thể tập trung vào âm sắc, giai điệu, hòa âm, nhịp điệu hoặc lời nhắc nhập liệu”, PGS. Dorien Herremans cho biết. “Các chỉ số này cũng có thể được phát triển để phát hiện đạo văn”.
Mở rộng khả năng sáng tạo của con người
Tại hội nghị ISMIR (Hiệp hội Quốc tế về truy xuất thông tin âm nhạc) năm 2024, có một số bài phát biểu đáng chú ý như bài phát biểu của Ed Newton-Rex, người sáng lập Fairly Trained - một tổ chức phi lợi nhuận đang đòi tiền bản quyền cho những nghệ sĩ có tác phẩm được dùng để huấn luyện AI - đã tiếp thêm động lực cho làn sóng đấu tranh cho quyền của nghệ sĩ, cũng như kêu gọi các công cụ AI trao quyền cho các nhà sáng tạo chứ không thay thế họ. Thay vì thiết kế những mô hình AI tạo ra bản nhạc thuần túy, các công ty có thể phát triển các mô hình AI tập trung vào việc nâng cao khả năng sáng tác của các nhà soạn nhạc, bằng cách hỗ trợ ý tưởng hòa âm, đẩy nhanh quy trình sáng tác, bổ sung các giai điệu ngắn…
Giống như cuộc cách mạng bùng nổ nhờ iPod và phát nhạc trực tuyến, cuộc cách mạng AI đang diễn ra với quy mô lớn hơn và phức tạp hơn, buộc ngành công nghiệp âm nhạc phải nhanh chóng thích ứng. Trong quá trình này, chúng ta cần quan tâm đến những công nghệ đảm bảo tính minh bạch và các hoạt động đào tạo có đạo đức.
Buổi trình diễn công khai đầu tiên của “Illiac Suite” vào năm 1956 đã gây xôn xao dư luận. Người ta lo lắng về “tương lai không còn sự sáng tạo của con người”. “Các mô hình âm nhạc genAI ngày nay cũng gây ra làn sóng tranh cãi tương tự”, PGS. Dorien Herremans nhận xét. “Tuy nhiên, những công nghệ này có thể trở thành những công cụ hỗ trợ đắc lực trong quá trình sáng tạo, đồng thời đảm bảo quyền lợi công bằng cho nghệ sĩ - tất cả tùy thuộc vào cách ứng xử của chúng ta”.
Nguồn: WIPO Magazine, RTE