Cách FLUX đang làm rối loạn ngành công nghiệp AI hình ảnh trị giá một tỷ $

ldanh01691248772340 · 5 Tháng Mười 2024 08:25

Trong vài năm qua, ngành công nghiệp máy tạo hình ảnh AI đã phát triển một cách nhanh chóng.

Khi OpenAI, công ty phát triển ChatGPT, phát hành mô hình tạo hình ảnh DALL-E vào năm 2021, điều này đã tạo ra một sự quan tâm lớn vì việc chuyển đổi văn bản thành hình ảnh là điều chưa từng có. Tuy nhiên, khi các mô hình cập nhật từ OpenAI tiếp tục được phát hành, thế giới nhận ra rằng điều này có thể làm rối loạn nhiều ngành công nghiệp.

Thị Trường Máy Tạo Hình Ảnh AI Trị Giá Một Tỷ Đô La

Hiện nay, theo nghiên cứu, thị trường máy tạo hình ảnh AI toàn cầu đã tạo ra doanh thu 349,6 triệu đô la vào năm 2023 và dự kiến sẽ đạt 1,081 tỷ đô la vào năm 2030.

Nhiều công ty đang sử dụng những máy tạo hình ảnh này, như bạn có thể tưởng tượng, để tạo quảng cáo, vì điều này giúp họ tiết kiệm chi phí.

Bạn có thể đã thấy quảng cáo nổi tiếng của Coca-Cola, hoặc có thể bạn đã gặp một trong số nhiều người ảnh hưởng AI đang thực hiện quảng cáo thương hiệu. Các trường hợp sử dụng là vô tận.

Thực tế, gã khổng lồ thương mại điện tử Amazon cũng đang sử dụng các mô hình hình ảnh thực tế do AI tạo ra để tạo quảng cáo.

Ảnh chụp màn hình ứng dụng Amazon Ấn Độ, nơi họ đang sử dụng hình ảnh do AI tạo ra cho quảng cáo.

Có hàng chục công ty đang hoạt động trong thị trường máy tạo hình ảnh AI đầy lợi nhuận này. Một số trong số đó là Midjourney, Adobe, OpenAI, Stability AI, Google, Microsoft, Leonardo AI, Runway AI, Inc., và nhiều công ty khác.

Cho đến tháng 7 năm 2024, các công ty dẫn đầu trong lĩnh vực mô hình tạo hình ảnh AI là Midjourney V6.1, DALL-E 3 của OpenAI và các mô hình Stable Diffusion của Stability AI (mã nguồn mở).

Tuy nhiên, vào ngày 1 tháng 8, một công ty khởi nghiệp có tên Black Forest Labs đã ra mắt FLUX.1, điều này đã khiến một số chuyên gia trong ngành bất ngờ và khiến một số công ty hàng đầu trong lĩnh vực máy tạo hình ảnh AI cảm thấy lo lắng.

Tại sao? Bởi vì các mô hình FLUX.1 có thể tạo ra một số hình ảnh thực tế nhất mà bạn từng thấy, và điều tuyệt vời nhất là chúng là mã nguồn mở.

Đứa trẻ AI mới trên thị trường — FLUX.1

FLUX.1 là một bộ mô hình định nghĩa một cấp độ chi tiết mới, tuân thủ yêu cầu, đa dạng phong cách và độ phức tạp của cảnh cho việc tổng hợp văn bản thành hình ảnh.

Đội ngũ chịu trách nhiệm cho công ty khởi nghiệp này bao gồm các nhà phát triển gốc của công nghệ hỗ trợ Stable Diffusion và các nhà phát minh của khuếch tán tiềm ẩn. Công ty có trụ sở tại Đức và đã huy động được 31 triệu đô la trong vòng gọi vốn hạt giống.

FLUX.1 có ba mô hình và chúng như sau:

FLUX.1 Pro

FLUX.1 Dev

FLUX.1 Schnell
Cả ba mô hình này đều có thể truy cập bằng Kaikun.io và lựa chọn AI bạn mong muốn.

Cách truy cập các mô hình FLUX.1
Cách 1: ComfyUI
Các bạn vào kaikun.io, đăng nhập.
Tại menu bên trái, chọn Stable Diffusion, chọn phiên bản ComfyUI
Lựa chọn một cấu hình phù hợp tại server Hồ Chí Minh (khuyến khích sử dụng server có cấu hình cao) để chạy ComfyUI.
Khi ComfyUi đã load lên, hãy load workflow để trải nghiệm.

Cách 2: AI Image
Tại menu bên trái, chọn AI Image
Chọn AI là Flux-Pro, gõ prompt và tạo ảnh
(Nếu sử dụng prompt tiếng việt, hãy đảm bảo bạn tick vào phần dịch tự động)

Một số hình minh họa từ các mô hình FLUX.1

Các hình ảnh được tạo ra bởi FLUX.1 thật ấn tượng, và đó là một cách nói giảm.

Nó có một cộng đồng phát triển và người dùng sôi nổi và gắn bó, giúp nó ngày càng hoàn thiện hơn. Tính chất mã nguồn mở của nó cho phép người dùng tùy chỉnh công cụ và thêm các tính năng mới.

Minh họa bằng một số ví dụ về sự tuyệt vời của các hình ảnh này.

Cầm một bảng hiệu hiển thị văn bản trong một cảnh phim

Prompt: A girl of Indian descent, engaged with a futuristic machine, inside the Nostromo spaceship. Wide shot revealing distinct machines with intricate designs inspired by H. R. Giger and Escher, presenting elaborate body extensions. The scene illustrates a holiday dad core aesthetic, merging absurdist installations reminiscent of Stanley Kubrick’s films, while she holds a white board displaying “Kaikun AI - Pay Once. Use All” with great prominence.

Bạn có thể tạo ra bất kỳ cảnh phim nào với bất kỳ kịch bản nào mà một nhân vật có thể cầm một bảng hiệu với tên của bạn hoặc bất kỳ văn bản mong muốn nào trên đó.

Nếu bạn đang theo dõi các bài viết về máy tạo hình ảnh AI, thì bạn chắc chắn đã quen thuộc với những điểm đau trong việc hiển thị văn bản khi tạo hình ảnh AI. Với các mô hình FLUX, bạn không gặp phải vấn đề này chút nào. Bạn chỉ cần nhập kịch bản và thêm văn bản mong muốn theo bất kỳ cách nào bạn muốn để tạo ra.

Chân dung của một bà ngoại Tây Ban Nha

Prompt: Old family Spanish portrait, candid image, vintage effect, short very old Spanish woman, typical Spanish grandma clothing, in her house, in the middle of a Spanish Mediterranean countryside documental photography, real person, intricate natural lights reflecting in her

Các hình ảnh được tạo ra bởi FLUX.1 Pro và Midjourney v6.1 cực kỳ thực tế. Cả hai mô hình này đều vượt qua mong đợi, và trong một số trường hợp, hình ảnh của FLUX.1 Pro thường chi tiết và thực tế hơn và thường vượt qua hình ảnh của Midjourney.

Người máy đang lấy việc làm của con người

Prompt: Cyborgs taking the human jobs in the dystopian future.

Thiết kế người máy hơn trong Midjourney, nhưng độ tuân thủ yêu cầu của FLUX.1 Pro chính xác hơn. Midjourney nổi tiếng với việc tạo ra hình ảnh chính xác, nhưng FLUX.1 Pro hoạt động thậm chí còn tốt hơn.

Chân dung tự họa của một người phụ nữ tại bữa tiệc

Prompt: Selfie, self-portrait of a woman at the party, candid, ultra-wide-angle, distinct facial features, neon lights, red, everyday outfit, 4k

Các hình ảnh được tạo ra bởi tất cả các mô hình đều tốt, nhưng hãy xem chúng so sánh với nhau như thế nào. Lightning XL là mô hình tinh chỉnh của Leonardo AI, và nó đã làm rất tốt, ngoại trừ ánh sáng neon đỏ không rõ ràng trên khuôn mặt.

Midjourney đã làm việc khá tốt, và mô hình FLUX.1 Dev cũng vậy, mặc dù không phải là mô hình tốt nhất. Thực tế rằng FLUX.1 Dev ngang bằng với Midjourney cho thấy khả năng của nó.

Minh họa với tiêu đề và chủ đề

Prompt for horror theme (ảnh trái): Illustration “Medium” huge letters in the middle of the scene made of houses, a manor, horror with a guy wearing a hat on a horse.

Prompt for space exploration theme (ảnh phải): Illustration “Medium” in huge letters in the middle of the scene made of space, a spaceship landed on Mars, with a guy wearing the spacesuit walking.

Hãy nghĩ về tất cả các khả năng bạn có thể thực hiện trong việc tạo nội dung, truyền thông xã hội hoặc quảng bá sản phẩm với những minh họa hấp dẫn như thế này. Chỉ cần thay đổi văn bản và chủ đề, và nó sẽ tạo ra cho bạn những minh họa cực kỳ hấp dẫn mỗi lần.

Chỉ đơn giản là hiển thị một thông điệp từ phòng của bạn.

Kết luận

Mỗi ngày, hình ảnh do máy tạo ra đang được tinh chỉnh, ngày càng tốt hơn và tạo ra những hình ảnh cực kỳ khó phát hiện. Các ngành công nghiệp đang sử dụng các công cụ như thế này để tận dụng lợi thế. Các cơ quan đã sử dụng công nghệ này để tạo ra những người ảnh hưởng AI hiện đang kiếm hàng triệu đô la.

Các trường hợp sử dụng là vô tận, và ngành công nghiệp máy tạo hình ảnh chỉ đang chứng kiến một xu hướng đi lên. Liệu nó có trở thành một ngành công nghiệp trị giá một tỷ đô la vào năm 2030? Chỉ có thời gian mới trả lời được.

cre: tham khảo
Vivek Naskar