Giờ đây, chúng ta có thể nghe được âm nhạc tạo ra từ lời miêu tả những tuyệt tác hội họa.

Khi những mạng lưới thần kinh trở nên mạnh mẽ hơn, các thuật toán đã có khả năng biến những dòng chữ khô khan thành hình ảnh, phim hoạt hình và thậm chí là các video ngắn.

Gần đây, một hình ảnh do AI tạo ra đã giành giải nhất trong một cuộc thi hội họa được tổ chức hằng năm. Vì thế, chẳng có gì ngạc nhiên khi những hệ thống này có thể sáng tác âm nhạc.

Một nhóm các nhà nghiên cứu tại Google đã giới thiệu một hệ thống AI có khả năng biến các văn bản mô tả khô khan thành âm nhạc phong phú, đa dạng và phù hợp.

Các bộ dữ liệu âm nhạc

Một yếu tố then chốt cho phép các hệ thống biến văn bản thành hình ảnh là những bộ dữ liệu hình ảnh lớn kèm theo chú thích. Các bộ dữ liệu này có thể được dùng để đào tạo một mạng lưới thần kinh. Tuy nhiên, âm nhạc không có các bộ dữ liệu với chú giải tương tự.

Tuy thế, trong năm 2022, Google Research đã công bố một thuật toán mang tên MuLan, có thể tạo ra mô tả văn bản cho một đoạn nhạc. Một lời mô tả tốt thường cần có cả nhịp điệu, giai điệu, âm sắc và các dụng cụ âm nhạc lẫn giọng hát khác nhau nếu có.

Hiện nay, Christian Frank và đồng nghiệp tại Google Research đã sử dụng MuLan để tạo ra chú thích mô tả cho các bản nhạc không có bản quyền. Sau đó, họ sử dụng cơ sở dữ liệu này để huấn luyện một mạng lưới thần kinh khác thực hiện nhiệm vụ trái ngược là biến một chú thích thành đoạn nhạc. Họ gọi thuật toán mới này là MusicLM. Không chỉ tạo ra âm nhạc dựa trên văn bản được cung cấp, MusicLM có thể chỉnh sửa các tệp âm thanh chứa tiếng ngâm nga hay tiếng huýt sáo sao cho giống như chú thích.

Những thuật toán như MusicLM cần một bộ dữ liệu tiêu chuẩn vàng gồm các tệp âm nhạc đã được chú thích, lý tưởng là do con người tạo ra. Vì thế, Frank và đồng nghiệp đã tạo ra một bộ dữ liệu như vậy bằng cách mời mười nhạc sĩ chuyên nghiệp viết mô tả cho 5.500 đoạn nhạc dài 10 giây.

Mỗi mô tả gồm khoảng bốn câu, cho biết thể loại, cảm xúc, nhịp độ, giọng hát ca sĩ, nhạc cụ, chỗ không hài hòa, nhịp điệu… Nhóm nghiên cứu gọi cơ sở dữ liệu này là MusicCap và công khai nó cho các lập trình viên khác dùng làm tiêu chuẩn vàng.

Tiếp theo, Frank và đồng nghiệp đánh giá âm nhạc do MusicLM tạo ra bằng cách xem xét chất lượng âm thanh và độ phù hợp với bản mô tả.

Kết quả rất khả thi. Các nhà nghiên cứu còn cấp cho MusicLM bản mô tả của một số bức tranh nổi tiếng và công bố đoạn nhạc được tạo ra.

Sau đây là một số ví dụ:

Bức The Persistence of Memory của Salvador Dalí

Persistence of Memory - Salvador Dalí
Persistence of Memory - Salvador Dalí


Bức Scream của Edvard Munch

Scream - Edvard Munch
Scream - Edvard Munch


Bức The Starry Night của Vincent van Gogh

The Starry Night - Vincent van Gogh
The Starry Night - Vincent van Gogh


Bức The Kiss của Gustav Klimt
The Kiss - Gustav Klimt
The Kiss - Gustav Klimt


Độc giả có thể nghe các kết quả khác ở đây.

Dĩ nhiên, MusicLM không hoàn hảo: nó có thể sailệch trong việc tạo ra âm nhạc cho các nền văn hóa thiếu đại diện trong dữ liệu huấn luyện; đồng thời lại có nguy cơ chiếm dụng văn hóa– sao chép tác phẩm do người khác tạo ra. Để tránh vấn đề này, nhóm nghiên cứu đã sử dụng các bộ dữ liệu âm nhạc mở không có bản quyền. Và họ cũng kiểm tra đầu ra để xem nó giống dữ liệu đầu vào tới mức nào. Frank cho biết, nhóm chỉ có thể xác định điểm tương đồng với dữ liệu đầu vào ở 1% ví dụ.

Google không cho phép truy cập công khai vào MusicLM. Nhưng chắc chắn chẳng bao lâu nữa sẽ có người tạo ra một AI có năng lực tương tự và công bố công khai.

Nguồn: