Các công cụ trí tuệ nhân tạo (AI) đã được chứng minh là có giá trị cao trong một loạt các vấn đề khác nhau. Mặc dù chúng chủ yếu được sử dụng để tăng năng suất hoặc đơn giản hóa các quy trình hàng ngày, nhưng chúng cũng cho thấy hứa hẹn về việc tự động tạo ra các văn bản sáng tạo và hình ảnh nghệ thuật.

Các nhà nghiên cứu tại Đại học Waterloo và Viện Courant của Đại học New York mới đây đã tạo ra một công cụ AI có thể tự động tạo ra các hình ảnh nghệ thuật độc đáo dựa trên mô tả văn bản. Phương pháp của họ, được giới thiệu trong một bản thảo trên arXiv, dựa trên mạng đối lập tạo bộ nhớ động (DM-GAN) - mô hình hai mạng thần kinh nhân tạo hoạt động cùng nhau để tạo ra hình ảnh ngày càng thuyết phục hơn.


Nguồn ảnh:Tian & Franchitti.

Các tác giả muốn tạo ra một mô hình có thể dựa trên các mô tả văn bản do người dùng cung cấp để tạo ra các hình ảnh nghệ thuật phù hợp với những mô tả này. Điều này sẽ cho phép những người khuyết tật hay bất kỳ ai không giỏi vẽ tạo ra những hình ảnh nghệ thuật đẹp mắt, mô tả những gì họ thấy.

Tuy nhiên, hầu hết các bộ dữ liệu hiện có để đào tạo các mô hình tổng hợp đều chứa các hình ảnh hoặc văn bản được gắn nhãn, thay vì các hình ảnh được ghép nối với các mô tả bằng văn bản. Do đó, các nhà nghiên cứu đã phải tìm cách khác để đào tạo mô hình của họ.

Các nhà nghiên cứu giải thích trong bài báo: "Do thiếu bộ dữ liệu kết hợp mô tả văn bản và hình ảnh nghệ thuật, thật khó để đào tạo trực tiếp một thuật toán có thể tạo ra tác phẩm nghệ thuật dựa trên đầu vào văn bản. Để giải quyết vấn đề này, chúng tôi chia nhiệm vụ của mình thành ba bước."

Đầu tiên, các nhà nghiên cứu đã sử dụng mô hình DM-GAN để tạo ra một hình ảnh thực tế dựa trên một mô tả văn bản. Sau đó, họ sử dụng ResNet, một mạng nơ-ron nhân tạo với nhiều lớp, để phân loại hình ảnh do DM-GAN tạo ra thành một trong các loại thể loại; phân loại dựa trên dữ liệu WikiArt.

Tập dữ liệu WikiArt, thường được sử dụng để đào tạo các phương pháp học sâu, chứa hơn 40.000 bức tranh nghệ thuật do 195 nghệ sĩ tạo ra. Sau khi phân loại hình ảnh do DM-GAN tạo ra vào một trong các danh mục thể loại do WikiArt phác thảo, mô hình có thể chọn phong cách vẽ tranh tương thích với thể loại này.

Các nhà nghiên cứu đã đánh giá mô hình trong một loạt các thí nghiệm thử nghiệm ban đầu. Mặc dù nó đã đạt được kết quả khá tốt, nhưng họ muốn cải thiện hiệu suất hơn nữa trong các tác phẩm tiếp theo.

Các nhà nghiên cứu viết trong bài báo: “Nhìn chung, chúng tôi thu được kết quả có thể chấp nhận được với nhiều loại đầu vào văn bản. Tuy nhiên, vẫn còn nhiều điểm trong giải pháp của chúng tôi có thể được cải thiện. Đặc biệt, chúng tôi có kế hoạch thêm mô-đun nhận dạng giọng nói để giúp người khuyết tật tay có thể đưa ra thông tin đầu vào bằng giọng nói thay vì nhập liệu."

Trong tương lai, kỹ thuật này có thể được tích hợp vào các ứng dụng đồ họa và vẽ, cho phép mọi cá nhân tạo ra những bức ảnh nghệ thuật chất lượng cao, bất kể khả năng và năng khiếu nghệ thuật của họ. Mã mô hình được công bố công khai trên GitHub. Trong các nghiên cứu tiếp theo, nhóm nghiên cứu cũng có kế hoạch so sánh hiệu suất của mô hình này với hiệu suất của các phương pháp khác trong việc tạo hình ảnh, từ đó cải thiện hiệu suất của các thành phần riêng lẻ.

Nguồn: https://techxplore.com/news/2022-06-artistic-images-based-text-descriptions.html