Hướng dẫn tạo video AI bằng Runway Gen-3 Alpha
Bevoice / July 2, 2024
Cuộc đua tạo ra video chất lượng cao bằng trí tuệ nhân tạo (AI) đang ngày càng nóng lên. Vào thứ Hai vừa qua, Runway, công ty chuyên phát triển các công cụ AI tạo sinh dành cho các nhà sáng tạo nội dung phim ảnh, đã chính thức giới thiệu Gen-3 Alpha. Mô hình AI mới nhất này có khả năng tạo ra các video clip từ mô tả văn bản và hình ảnh tĩnh. Runway cho biết mô hình này mang đến sự cải thiện "đáng kể" về tốc độ và độ trung thực so với mô hình video flagship trước đó của Runway, Gen-2, đồng thời cung cấp khả năng kiểm soát chi tiết hơn về cấu trúc, phong cách và chuyển động của video được tạo ra.
Gen-3 sẽ sớm được cung cấp cho người đăng ký Runway, bao gồm cả khách hàng doanh nghiệp và người sáng tạo trong chương trình đối tác sáng tạo của Runway.
"Gen-3 Alpha vượt trội trong việc tạo ra các nhân vật con người biểu cảm với nhiều hành động, cử chỉ và cảm xúc đa dạng", Runway viết trên blog của mình. "Nó được thiết kế để diễn giải nhiều phong cách và thuật ngữ điện ảnh khác nhau [và cho phép] chuyển đổi giàu trí tưởng tượng và đóng khung chính xác các yếu tố trong cảnh."
Tuy nhiên, Gen-3 Alpha vẫn còn một số hạn chế, bao gồm việc độ dài video tối đa chỉ 10 giây. Tuy nhiên, đồng sáng lập Runway, Anastasis Germanidis, hứa hẹn rằng Gen-3 chỉ là mô hình đầu tiên - và nhỏ nhất - trong số một số mô hình tạo video sắp ra mắt trong gia đình mô hình thế hệ tiếp theo được đào tạo trên cơ sở hạ tầng nâng cấp.
"Mô hình này có thể gặp khó khăn với các tương tác phức tạp giữa nhân vật và đối tượng, và kết quả tạo ra không phải lúc nào cũng tuân theo chính xác các định luật vật lý", Germanidis chia sẻ với TechCrunch trong một cuộc phỏng vấn sáng nay. "Bản phát hành ban đầu này sẽ hỗ trợ tạo video độ phân giải cao với thời lượng 5 và 10 giây, với thời gian tạo nhanh hơn đáng kể so với Gen-2. Một video clip dài 5 giây mất 45 giây để tạo, và một video clip dài 10 giây mất 90 giây để tạo."
Giống như tất cả các mô hình tạo video khác, Gen-3 Alpha được đào tạo trên một lượng lớn dữ liệu video và hình ảnh để có thể "học" các mẫu trong đó và tạo ra các video clip mới. Vậy dữ liệu đào tạo đến từ đâu? Runway từ chối tiết lộ thông tin này. Rất ít nhà cung cấp AI tạo sinh tình nguyện cung cấp thông tin như vậy, một phần vì họ coi dữ liệu đào tạo là lợi thế cạnh tranh.
Việc tiết lộ chi tiết dữ liệu đào tạo cũng có thể dẫn đến các vụ kiện liên quan đến sở hữu trí tuệ nếu nhà cung cấp sử dụng dữ liệu công khai, bao gồm dữ liệu có bản quyền từ web. Một số vụ kiện đang được xử lý tại tòa án bác bỏ lập luận "sử dụng hợp lý dữ liệu đào tạo" của các nhà cung cấp AI, cho rằng các công cụ AI tạo sinh sao chép phong cách của các nghệ sĩ mà không được phép và cho phép người dùng tạo ra các tác phẩm mới giống với bản gốc của các nghệ sĩ mà không phải trả tiền bản quyền.
Runway đã phần nào giải quyết vấn đề bản quyền bằng cách cho biết họ đã tham khảo ý kiến của các nghệ sĩ trong quá trình phát triển mô hình. "Chúng tôi đang hợp tác chặt chẽ với các nghệ sĩ để tìm ra cách tiếp cận tốt nhất để giải quyết vấn đề này", ông nói. "Chúng tôi đang khám phá nhiều quan hệ đối tác dữ liệu khác nhau để có thể phát triển hơn nữa… và xây dựng thế hệ mô hình tiếp theo."
Runway cũng cho biết họ có kế hoạch phát hành Gen-3 với một bộ biện pháp bảo vệ mới, bao gồm hệ thống kiểm duyệt để chặn các nỗ lực tạo video từ hình ảnh có bản quyền và nội dung không phù hợp với điều khoản dịch vụ của Runway. Công ty cũng đang phát triển hệ thống chứng minh nguồn gốc - tương thích với tiêu chuẩn C2PA, được Microsoft, Adobe, OpenAI và một số công ty khác hậu thuẫn - để xác định video nào được tạo từ Gen-3.
"Hệ thống kiểm duyệt văn bản và hình ảnh nội bộ mới và cải tiến của chúng tôi sử dụng giám sát tự động để lọc ra nội dung không phù hợp hoặc có hại", Germanidis cho biết. "Xác thực C2PA xác minh nguồn gốc và tính xác thực của phương tiện được tạo bằng tất cả các mô hình Gen-3. Khi khả năng của mô hình và khả năng tạo nội dung có độ trung thực cao tăng lên, chúng tôi sẽ tiếp tục đầu tư đáng kể vào các nỗ lực căn chỉnh và an toàn của mình."
Runway cũng tiết lộ rằng họ đã hợp tác với "các tổ chức giải trí và truyền thông hàng đầu" để tạo ra các phiên bản Gen-3 tùy chỉnh cho phép kiểm soát phong cách và tạo ra các nhân vật nhất quán hơn, nhắm mục tiêu vào "các yêu cầu nghệ thuật và tường thuật cụ thể". Công ty cho biết thêm: "Điều này có nghĩa là các nhân vật, phông nền và yếu tố được tạo ra có thể duy trì vẻ ngoài và hành vi nhất quán trong các cảnh khác nhau."
Tuy nhiên, cạnh tranh trong lĩnh vực AI tạo video đang ngày càng gay gắt. Startup AI Luma tuần trước đã công bố Dream Machine, một trình tạo video đã lan truyền nhanh chóng vì khả năng tạo meme động. Và chỉ vài tháng trước, Adobe đã tiết lộ rằng họ đang phát triển mô hình tạo video của riêng mình được đào tạo trên nội dung trong thư viện phương tiện Adobe Stock.
Bên cạnh đó, còn có các ông lớn như Sora của OpenAI, hiện vẫn đang trong giai đoạn thử nghiệm hạn chế nhưng OpenAI đã và đang giới thiệu với các công ty tiếp thị và các đạo diễn phim độc lập và Hollywood. (Giám đốc Công nghệ của OpenAI, Mira Murati, đã tham dự Liên hoan phim Cannes 2024). Liên hoan phim Tribeca năm nay - cũng có quan hệ đối tác với Runway trong việc tuyển chọn các bộ phim được sản xuất hoàn toàn hoặc một phần bằng công cụ AI - đã giới thiệu các phim ngắn được sản xuất bằng Sora bởi các đạo diễn được quyền truy cập sớm.
Google cũng đã cung cấp mô hình tạo hình ảnh của mình, Veo, cho một số nhà sáng tạo được chọn, bao gồm Donald Glover (còn gọi là Childish Gambino) và công ty sáng tạo Gilga của ông, khi họ đang nỗ lực đưa Veo vào các sản phẩm như YouTube Shorts.
Cho dù kết quả của những sự hợp tác này ra sao, một điều đã trở nên rõ ràng: Các công cụ video AI tạo sinh đang đe dọa thay đổi ngành công nghiệp điện ảnh và truyền hình như chúng ta đã biết.
Nhà làm phim Tyler Perry gần đây cho biết ông đã tạm dừng kế hoạch mở rộng studio sản xuất trị giá 800 triệu USD sau khi chứng kiến khả năng của Sora. Joe Russo, đạo diễn của các bộ phim bom tấn Marvel như "Avengers: Endgame", dự đoán rằng trong vòng một năm tới, AI sẽ có thể tạo ra một bộ phim hoàn chỉnh.
Một nghiên cứu năm 2024 do Hiệp hội Hoạt hình, một công đoàn đại diện cho các họa sĩ hoạt hình và hoạt hình Hollywood, ủy quyền thực hiện, cho thấy rằng 75% công ty sản xuất phim đã áp dụng AI đã giảm, hợp nhất hoặc cắt giảm việc làm sau khi kết hợp công nghệ này. Nghiên cứu cũng ước tính rằng đến năm 2026, hơn 100.000 việc làm trong ngành giải trí của Hoa Kỳ sẽ bị ảnh hưởng bởi AI tạo sinh.
Sẽ cần có những biện pháp bảo vệ lao động thực sự mạnh mẽ để đảm bảo rằng các công cụ tạo video không đi theo vết xe đổ của các công nghệ AI tạo sinh khác và dẫn đến sự suy giảm mạnh mẽ về nhu cầu đối với công việc sáng tạo.