Meta đã bước đến gần hơn với việc tạo ra video phim bằng AI

huylpq6230 · 17 Tháng Mười Một 2023 11:10

Giống như đạo diễn của “Avengers” đã từng nói “tôi càng ngày càng tin rằng việc tạo ra phim và chương trình truyền hình hoàn toàn bởi AI sẽ trở nên khả thi trong đời sống của chúng ta.”

Một loạt các công bố về AI trong những tháng qua, đặc biệt là công cụ chuyển đổi văn bản thành giọng nói siêu thực tế của OpenAI, đã cho thấy cái nhìn sơ lược về lĩnh vực mới mẻ này. Nhưng thông báo hôm nay của Meta đã làm rõ ràng hơn về nội dung được tạo bởi AI trong tương lai.

Meta đã giới thiệu Emu Video vào sáng nay, một sự tiến hóa của công cụ tạo hình ảnh Emu của công ty công nghệ khổng lồ này. Chỉ với một dòng chú thích (ví dụ: “Một chú chó chạy qua một ngọn đồi cỏ”), hình ảnh hoặc một bức ảnh kèm theo mô tả, Emu Video có thể tạo ra một đoạn clip hoạt hình dài bốn giây.

Các đoạn clip của Emu Video có thể được chỉnh sửa bằng một mô hình AI bổ sung gọi là Emu Edit, cũng được công bố hôm nay. Người dùng có thể mô tả những thay đổi họ muốn thực hiện với Emu Edit bằng ngôn ngữ tự nhiên - ví dụ: “cùng một đoạn clip, nhưng chạy chậm” - và thấy những thay đổi được phản ánh trong một video mới được tạo ra.

Công nghệ tạo video không phải là mới. Meta đã thử nghiệm với nó trước đây, cũng như Google. Trong khi đó, các công ty khởi nghiệp như Runway đã bắt đầu xây dựng doanh nghiệp dựa trên nó.

Nhưng các đoạn clip 512x512, 16 khung hình mỗi giây của Emu Video là một trong những sản phẩm tốt nhất mà tôi đã thấy về độ chân thực của chúng - đến mức mắt không chuyên của tôi gặp khó khăn trong việc phân biệt chúng với thực tế.

[optimize output image]

Tuy nhiên, chỉ một số trường hợp như vậy. Có vẻ như Emu Video thành công nhất khi tạo hoạt hình cho các cảnh tĩnh đơn giản (ví dụ như thác nước và quay thời gian của đường chân trời thành phố) mà không cần đến độ chân thực của ảnh - nói cách khác, trong các phong cách như Cubism, anime, “nghệ thuật cắt giấy” và steampunk. Một đoạn clip về Tháp Eiffel lúc bình minh “như một bức tranh”, với hình ảnh phản chiếu của tháp trong sông Seine phía dưới, khiến tôi nhớ đến một tấm thiệp điện tử mà bạn có thể thấy trên American Greetings.

[optimize output image]

Dù trong những tác phẩm xuất sắc nhất của Emu Video, những điều kỳ quái do AI tạo ra vẫn xuất hiện - như vật lý kỳ lạ (ví dụ: ván trượt di chuyển song song với mặt đất) và những bộ phận quái dị (ngón chân quăn ra sau chân và chân hòa lẫn vào nhau). Các vật thể thường xuất hiện và biến mất mà không có nhiều logic, như những con chim trên bầu trời trong đoạn clip Tháp Eiffel đã nói đến.

Sau khi dành quá nhiều thời gian duyệt qua các tác phẩm của Emu Video (hoặc ít nhất là những ví dụ mà Meta lựa chọn), ta có thể nhận ra một dấu hiệu rõ ràng: các chủ thể trong các đoạn clip không làm nhiều thứ. Emu Video dường như không hiểu rõ về các động từ hành động, có lẽ do hạn chế của kiến trúc mô hình.

[optimize output image]

Chẳng hạn, một chú raccoon ngộ nghĩnh trong một đoạn clip của Emu Video sẽ cầm đàn guitar, nhưng nó không gảy đàn — ngay cả khi chú thích của đoạn clip bao gồm từ “gảy”. Hoặc hai chú kỳ lân sẽ “chơi” cờ, nhưng chỉ trong nghĩa là chúng sẽ ngồi tò mò trước bàn cờ mà không di chuyển các quân cờ.

[optimize output image]

Vậy nên rõ ràng còn rất nhiều việc phải làm. Tuy nhiên, tôi cho rằng những đoạn b-roll cơ bản hơn của Emu Video sẽ không lạc lõng trong những bộ phim hoặc chương trình truyền hình ngày nay — và những hậu quả về đạo đức của điều này thực sự đáng e ngại.

[optimize output image]

Bỏ qua rủi ro của deepfakes, tôi lo lắng cho những nhà hoạt hình và nghệ sĩ mà cuộc sống phụ thuộc vào việc tạo ra những cảnh tượng mà AI như Emu Video giờ đây có thể mô phỏng được. Meta và các đối thủ AI khác có thể cho rằng Emu Video đang được tích hợp vào Facebook và Instagram (hi vọng với bộ lọc nội dung tốt hơn so với nhãn dán AI do Meta tạo ra), nhưng những công cụ AI trên hiện tại sẽ bổ trợ chứ không thay thế nghệ sĩ con người. Nhưng ta có thể thấy rằng đó là quan điểm lạc quan, nếu không muốn nói là không thành thật - đặc biệt là khi có liên quan đến tiền bạc.

Đầu năm nay, Netflix đã sử dụng hình ảnh nền được tạo bởi AI trong một đoạn phim hoạt hình ngắn ba phút. Công ty tuyên bố rằng công nghệ có thể giúp đỡ với tình trạng thiếu hụt lao động được cho là có trong ngành anime - nhưng tiện lợi bỏ qua cách mức lương thấp và điều kiện làm việc căng thẳng đang đẩy các nghệ sĩ ra khỏi công việc.

Trong một vụ lùm xùm tương tự, studio đằng sau phần giới thiệu tín dụng cho bộ phim “Secret Invasion” của Marvel thừa nhận sử dụng AI, chủ yếu là công cụ chuyển đổi văn bản thành hình ảnh Midjourney, để tạo ra phần lớn các tác phẩm nghệ thuật trong đoạn phim. Đạo diễn của series, Ali Selim, đưa ra lý do rằng việc sử dụng AI phù hợp với chủ đề hoang tưởng của chương trình, nhưng phần lớn cộng đồng nghệ sĩ và người hâm mộ mạnh mẽ phản đối.

Emu Video

Các diễn viên cũng có thể nằm trong tầm ngắm. Một trong những điểm tranh cãi chính trong cuộc đình công gần đây của SAG-AFTRA là việc sử dụng AI để tạo ra hình ảnh kỹ thuật số. Cuối cùng, các studio đã đồng ý trả tiền cho các diễn viên với hình ảnh AI của họ được tạo ra. Nhưng họ có thể xem xét lại điều này khi công nghệ phát triển hơn không? Tôi nghĩ đó là khả năng cao.

Thêm vào sự xúc phạm, AI như Emu Video thường được huấn luyện trên hình ảnh và video được sản xuất bởi nghệ sĩ, nhiếp ảnh gia và nhà làm phim - và không thông báo hoặc bồi thường cho những người sáng tạo đó. Trong một bản trắng đi kèm với việc phát hành Emu Video, Meta chỉ nói rằng mô hình được huấn luyện trên một bộ dữ liệu gồm 34 triệu “cặp video-văn bản” với độ dài từ 5 đến 60 giây - không nêu rõ nguồn gốc của những video đó, tình trạng bản quyền của chúng hoặc liệu Meta có cấp phép cho chúng không.

(Sau khi bài viết này được xuất bản, một người phát ngôn của Meta thông qua email nói với TechCrunch rằng Emu được huấn luyện trên “dữ liệu từ các đối tác có cấp phép.”)

Emu Video

Cre: techcrunch

MrH · 17 Tháng Mười Một 2023 14:56

quá đỉnh, video mượt mà quá đi thôi