Mới đây OpenAI đã cho ra mắt một công cụ có thể tạo video khi nhận được yêu cầu bằng văn bản.

Công cụ mới này tên gọi Sora, trong tiếng Nhật nghĩa là “bầu trời”, có thể tạo ra những thước phim chân thực dài tới một phút với nội dung đúng với mô tả của người dùng về cả chủ đề và phong cách. Theo một bài đăng trên blog của công ty, Sora cũng có thể tạo video dựa trên hình ảnh tĩnh hoặc mở rộng các cảnh quay và video sẵn có.

Hình minh họa. Nguồn: OpenAI

Bài đăng trên blog của OpenAI cho biết: “Chúng tôi đang dạy AI hiểu và mô phỏng thế giới vật chất, với mục tiêu đào tạo các mô hình giúp con người giải quyết các vấn đề liên quan đến sự tương tác trong thế giới thực”.

Công ty thông báo đã mở quyền truy cập Sora cho một số nhà nghiên cứu và người sáng tạo video. Các chuyên gia sẽ được thử nghiệm sáng tạo ra nhiều video khác nhau nhưng họ phải tuân thủ các điều khoản dịch vụ của OpenAI, trong đó nghiêm cấm “bạo lực cực đoan, nội dung khiêu dâm, hình ảnh thù hận, chân dung người nổi tiếng hoặc thông tin cá nhân của người khác”.

Công ty đã ra mắt công cụ tạo hình ảnh tĩnh Dall-E vào năm 2021 và chatbot AI tạo sinh ChatGPT vào tháng 11/2022, nhanh chóng thu hút được 100 triệu người dùng. Các công ty AI khác đã ra mắt các công cụ tạo video, tuy nhiên những mô hình đó chỉ có thể tạo ra những đoạn phim ngắn vài giây và không tuân thủ đúng lời mô tả. Google và Meta cho biết họ đang trong quá trình phát triển các công cụ video, mặc dù họ chưa phát hành ra công chúng. OpenAI cũng đã công bố một thử nghiệm bổ sung bộ nhớ lớn hơn cho ChatGPT để có thể ghi nhớ nhiều cuộc trò chuyện của người dùng hơn.

OpenAI không tiết lộ bao nhiêu cảnh quay đã được sử dụng để đào tạo Sora hoặc các video đào tạo bắt nguồn từ đâu. Công ty chỉ nói với New York Times rằng kho tài liệu chứa các video được cung cấp công khai và được cấp phép bởi chủ sở hữu bản quyền. Trước đó, công ty đã bị kiện nhiều lần vì bị cáo buộc vi phạm bản quyền trong việc đào tạo các công cụ AI tạo sinh xử lý lượng tài liệu khổng lồ được lấy từ Internet và bắt chước hình ảnh hoặc văn bản có trong các bộ dữ liệu đó.

Nguồn: