Ra mắt sau trình tạo văn bản thành video của Meta, Google mới đây cũng đã công bố trình tạo video bằng trí thông minh nhân tạo (AI).
Mang tên Imagen Video, trí tuệ nhân tạo (AI) do Google phát triển có khả năng tạo nên đoạn video ngắn qua thông tin người dùng cung cấp.
Dù Imagen Video vẫn đang trong giai đoạn phát triển, nhưng công ty cho biết họ có khả năng tạo video 1280×768 ở tốc độ 24 khung hình/giây từ mô tả bằng văn bản.
Tuần trước, Meta, công ty mẹ của Facebook đã chia sẻ một model AI mới có thể biến lời nhắc bằng văn bản thành video ngắn, không có âm thanh. Nhưng hóa ra Google cũng đang giải quyết vấn đề tương tự và gần đây đã phát hành hai hệ thống chuyển văn bản thành video AI mới, một trong số đó tập trung vào chất lượng hình ảnh trong khi hệ thống còn lại ưu tiên tạo các clip dài hơn.
Trước tiên, hãy xem qua model chất lượng cao: Imagen Video. Như tên cho thấy, model này được xây dựng dựa trên các kỹ thuật được mài giũa trong hệ thống chuyển văn bản thành hình ảnh trước đó của Google, nhưng kết hợp một loạt các thành phần mới vào pipeline để biến các ảnh tĩnh thành chuyển động linh hoạt.
Như với model Make-A-Video của Meta, kết quả cuối cùng là đáng kinh ngạc, kỳ lạ và đáng lo ngại. Các mẫu thuyết phục nhất là những video mô phỏng lại ảnh động, như những mầm xanh tạo thành dòng chữ “Imagen” hoặc bức tượng nhỏ bằng gỗ lướt trong không gian.
Theo tài liệu nghiên cứu của Google, Imagen Video - công nghệ biến văn bản thành hình ảnh được Google phát triển trước đó sẽ có khả năng tạo video theo nhiều phong cách khác nhau, chẳng hạn như tạo video dựa trên các tác phẩm của những nghệ sĩ nổi tiếng như Vincent van Gough. Nó cũng sẽ tạo ra các đối tượng 3D trong khi vẫn giữ nguyên cấu trúc của chúng và hiển thị văn bản theo nhiều kiểu hoạt hình khác nhau.
Google hy vọng rằng model AI-video có thể “giảm đáng kể sự khó khăn của việc tạo nội dung chất lượng cao”. Imagen Video được xây dựng từ Imagen của Google, một chương trình chuyển văn bản thành hình ảnh tương tự như OpenAI’s DALL-E.
Như mô tả trong bài thuyết trình nghiên cứu của Google, Imagen Video sẽ sử dụng mô tả văn bản và tạo video 16 khung hình, 3 khung hình mỗi giây ở độ phân giải 24 × 48 pixel. Sau đó, hệ thống nâng cấp và "dự đoán" các khung hình bổ sung, tạo ra video 128 khung hình, 24 fps cuối cùng ở 720p.
Google cũng cho hay Imagen Video đã được đào tạo trên 14 triệu cặp văn bản video và 60 triệu cặp văn bản hình ảnh cũng như tập dữ liệu văn bản hình ảnh LAION được sử dụng để đào tạo Stable Diffusion.
Kết quả hứa hẹn
Trong số các ví dụ do Google cung cấp, là một con gấu trúc đang nhai tre, một cảnh phóng to vào một vùng biển đầy ắp những con tàu cướp biển và một phi hành gia đang cưỡi ngựa...
Điều đáng chú ý là tất cả các kết quả từ Imagen Video đều do Google tự chọn và cho đến nay vẫn chưa có người kiểm tra độc lập nào thử chương trình. Điều đó nói rằng, bài báo nghiên cứu tuyên bố rằng Imagen Video có thể hiển thị văn bản đúng cách, điều mà DALL-E và Stable Diffusion đều phải 'vật lộn'. Văn bản mà các chương trình đó tạo ra hầu như không thể đọc được.
Công ty cũng tuyên bố rằng Imagen Video đã chứng minh sự hiểu biết về chiều sâu và không gian ba chiều, cho phép tạo video trên không trung như ghi hình bằng drone và chụp các đối tượng từ các góc khác nhau mà không bị biến dạng (Như trên ảnh động đầu bài viết).
Google đã bày tỏ mối quan ngại của mình về những tập "dữ liệu có vấn đề" được sử dụng để đào tạo các chương trình tạo hình ảnh AI của mình. Công ty đã cố gắng lọc ra nội dung khiêu dâm hoặc bạo lực, cũng như các định kiến xã hội và thành kiến văn hóa tiêu cực. Người ta lo ngại rằng công cụ này có thể được sử dụng để “tạo ra, giả mạo, gây thù hận, khiêu dâm hoặc nội dung có hại”.
Đại diện Google cho biết thêm: “Chúng tôi đã quyết định không phát hành model Imagen Video hoặc mã nguồn của nó cho đến khi những lo ngại này được giảm thiểu".
AI này cho biết nó có nhận thức và các chuyên gia đang bắt đầu đồng ý với Elon Musk
>> Thủ thuật dịch phụ đề tiếng Việt cho mọi video trên Youtube
Theo Petapixel