“Một con gấu bối rối trong lớp học đại số” là một trong những đoạn văn bản đầu tiên được thử nghiệm. Sản phẩm do AI Make-a-video tạo ra là một video dài 5 giây tương đối sát nội dung mô tả, với độ phân giải thấp.


Hình ảnh cắt từ video do AI tạo ra dựa trên mô tả "Một con gấu bối rối trong lớp học đại số".

Chỉ trong 2 tháng gần đây đã có 2 hệ thống AI chuyển văn bản thành hình ảnh được ra mắt - DALL-E của phòng thí nghiệm OpenAI và Stable Diffusion của công ty khởi nghiệp Stability.AI. Nhưng AI chuyển văn bản thành video là vấn đề khó hơn. Chỉ một video ngắn cũng cần đến hàng trăm hình ảnh ghép lại với nhau, đòi hỏi sức mạnh tính toán gấp nhiều lần để vận hành AI. Và trong khi có sẵn các tập dữ liệu văn bản và hình ảnh tương ứng với văn bản, không có sẵn các tập dữ liệu văn bản và video tương ứng để đào tạo AI.

Để giải quyết vấn đề này, các nhà phát triển Make-a-video tại Meta, công ty thuộc sở hữu của Facebook và Instagram, đã kết hợp dữ liệu từ ba bộ dữ liệu khác nhau. Tập dữ liệu văn bản và hình ảnh tương ứng giúp Make-a-video biết các đối tượng được gọi là gì và chúng trông như thế nào. Một tập dữ liệu video giúp nó hiểu cách các vật thể di chuyển trong thế giới thực.

Các video được Meta công bố cho thấy Make-a-video có thể tạo ra các vật thể 3D nhìn từ các góc quay khác nhau, thay đổi liên tục. Video cũng thể hiện chiều sâu và bố cục ánh sáng. Một số chi tiết và chuyển động tinh vi và thuyết phục, theo Tanmay Gupta, nhà nghiên cứu thị giác máy tính tại Viện trí tuệ nhân tạo Allen.

Video do AI tạo ra từ mô tả "Một chú chó mặc áo choàng siêu anh hùng bay qua bầu trời".

Hình ảnh từ các video do Make-a-video tạo ra dựa trên các mô tả "Một chú chó mặc áo choàng siêu anh hùng bay qua bầu trời", "Một tàu vũ trụ hạ cánh trên sao Hỏa", "Cận cảnh bút cọ của họa sĩ trên canvas", "Một con ngựa uống nước".

Video của AI Make-a-video trở nên “giả” nhất khi có hai vật thể tương tác với nhau. Với mô tả “cận cảnh bức tranh vẽ của một nghệ sĩ trên canvas”, AI thể hiện bút lông như trượt đi trên trang giấy mà không có ma sát hay tạo ra nét vẽ tương ứng.

Meta hứa hẹn công nghệ này “mở ra cơ hội mới cho những người sáng tạo và các nghệ sĩ”. Nhưng có lo ngại rằng Make-a-video có thể trở thành công cụ sản xuất thông tin sai hoặc tạo ra các video phản cảm.

Các nhà nghiên cứu xây dựng Make-A-Video cho biết đã loại trừ hình ảnh và từ ngữ phản cảm, nhưng với nhiều tập dữ liệu mở, với hàng triệu triệu từ và hình ảnh, không thể loại bỏ hoàn toàn nội dung có hại.

Meta chưa cho biết mô tả AI đã được công bố trong một bài báo nghiên cứu để nhận phản hồi từ cộng đồng và tìm cách giảm thiểu rủi ro tiềm ẩn.

Nguồn: