Cuộc trò chuyện trên podcast giữa a16z - nhà đầu tư và các founder của Black Forest Labs hé lộ lý do vì sao họ thành lập team, vì sao lại là Flux, hay những điểm gì mới về model video sẽ ra mắt.
Dưới đây là một số thông tin mình tổng hợp được từ podcast.
Các thành viên của Black Forest Labs thực chất đã gặp nhau từ thời còn làm tiến sỹ (PhD) tại đại học Heidelberg. Họ hào hứng làm việc cùng nhau để thực thi ý tưởng cho việc dạy máy tính để tạo ảnh. Khi bắt đầu, mô hình đầu tiên mà họ nghiên cứ là VQGAN (vector-quanitzed generative adversarial network). Hiểu một cách đơn giản đó là kỹ thuật để cải thiện chất lượng của các hình ảnh được tạo ra đồng thời cũng giúp dễ dàng thao tác trên các khía cạnh cụ thể của chúng. Mô hình tiếp đến là DDPM (Denoising Diffusion Probabilistic Models), đây là nền tảng cho Stable Diffusion hiện tại.
Ra mắt lần đầu vào tháng 8/2022, mô hình Stable Diffusion 1.4 đạt 2 triệu lượt tải trên chỉ trên Hugging face. Cho đến bây giờ, các mô hình SD đạt 330 triệu lượt tải, và là 1 trong 3 mô hình AI được sử dụng nhiều nhất trong lịch sử.
Kể từ khi ra mắt, tất cả các mô hình của team đều là miễn phí. Bởi vì khi bạn mà cho đi, thì những gì bạn nhận lại từ cộng đồng là những ý tưởng mà bạn tiếp tục có thể cải thiện cho các sản phẩm tiếp theo, và điều đó giữ cho cộng đồng tiếp tục xây dựng. Một trong những ví dụ của việc này là sau 2 tuần kể từ khi phát hành SD 1.4, team đi nghỉ 2 tuần tại Thụy Điển, gác qua 1 bên một số vấn đề còn dang dở của mô hình. Tuy nhiên, sau khi trở lại công việc, các vấn đề này đã được giải quyết nhờ cộng đồng (hình như đó là khả năng tự đóng góp có trên Github, Hugging Face). Team cũng được hưởng lợi rất nhiều từ các nghiên cứu được công bố và cũng với các công cụ khác như phụ thuộc rất nhiều vào PyTorch. Những model này sẽ không thể thành hiện thực nếu mỗi người cô lập các phát hiện của mình.
Flux là một mô hình tương đối nặng so với các model trước đây, tuy nhiên team cho rằng đó là tính năng phải đánh đổi, vì Flux rất nhanh. Team muốn phát triển một model có tốc độ cực nhanh, và ít workflow phức tạp mà hiệu quả vẫn cao. Điều đó chứng minh bằng workflow của Flux áp dụng trên ComfyUI. Vấn đề duy nhất là phần cứng để chạy, nhất là bạn cần scale ở mức độ rộng để phù hợp với mô hình kinh doanh của bạn. Việc này team cũng có giải pháp (không thấy nêu giải pháp gì). Ngoài ra Flux được khắc phục là sự thiên vị trong quá trình training gặp phải ở Stable Diffusion, và cộng đồng đã giúp team nhận ra và khắc phục (người dịch hiểu sự thiên vị ở đây đến từ data của SD rất ít, nên mẫu ra có ít tính châu Á, nên các model finetuning châu Á rất mạnh ở thời điểm trước). Một vấn đề Flux gặp phải là vấn đề bản quyền. Không phải data nào Flux sử dụng cũng là một mã nguồn mở, nên việc đóng dấu bản quyền cho những data liên quan là khó khăn. Và vì Flux sẽ tiếp tục là một phần mềm nguồn mở, nên sẽ luôn có người tìm cách “jailbreak” các data đã được đóng dấu bản quyền.
Mô hình video trong tương lai cũng được team chia sẻ. Team thừa nhận là từ khi SVD ra đời, thì các team AI video khác cũng ra mắt các sản phẩm làm tốt hơn rất nhiều. Tuy nhiên, tất cả đều có những nhược điểm về sự thiếu nhất quát. Trong các cảnh quay cần có nhự sự nhất quán, ví dụ các góc độ khác nhau của nhân vật, hay của nền thì bối cảnh phải không đổi. Tất cả các model hiện tại đều sử dụng cách thức “text to video” nên không có khả năng điều khiển sự nhất quán này. Team tìm ra một cách hay hơn, tạm gọi là “cutscreen” để điều khiển cho video dài hơn, ổn định hơn. Duy trì sự nhất quán trong các cutscreen khác nhau chỉ với 1 lần tạo. Phương pháp dựa trên lý thuyết về Temporal compression (nén thời gian kỹ thuật giảm thời gian kéo dài của một tín hiệu hoặc luồng dữ liệu mà vẫn giữ được thông tin quan trọng của nó). Model video mới sẽ hứa hẹn có nhiều chuyển động hơn như slo-mo, camera rung,… Vì ngày từ đầu, team cũng xác định sẽ phát hiển mô hình video mới song song với model hình ảnh, nên việc làm model image cũng rất chỉn chu, và điều đó giúp ích rất nhiều cho model video hiện tại. Tuy nhiên model image ra đời trước, vì dù sao nó cũng dễ hơn làm model video. Team cũng cẩn thận training cho model khả năng hiểu kỹ thuật sử dụng lời nhắc. Lời nhắc ngắn, dài, chi tiết hay không đều sẽ được xử lý ra những kết quả đẹp.
Bản tóm tắt podcast được dịch theo nội dung và ý của người dịch hiểu. Văn phong không đại diện cho team phát triển AI – Black Forest Labs. Phần nghe do người dịch nghe và dịch lại. Vì vậy nếu có thiếu sót xin mọi người bình luận để hoàn thiện hơn. Mọi người có thể nghe lại podcast này tại đây.