Model đình đám Segment Anything (SAM) của Meta (công ty chủ quản của Facebook) khi ra mắt đã làm mưa làm gió trên nhiều nền tảng AI, là model chính cho rất nhiều ứng dụng AI như tách nền, thay phông,…
Mới đây, Meta đã công bố phiên bản tiếp theo của SAM là SAM 2, với hàng loạt trang bị, đặc biệt hỗ trợ rất tốt video. Mô hình này có thể xử lý video thời gian thực và được đào tạo trên bộ dữ liệu lớn nhất về phân đoạn video hiện nay. SAM 2 cho thấy hiệu quả cao trong nhiều ứng dụng liên quan đến hình ảnh và video.
Một số điểm đáng chú ý của SAM 2:
- Cũng như SAM, phiên bản số 2 được dựa trên sự cho phép từ Apache 2.0, nên sẽ free cho tất cả mọi đối tượng.
- Sức mạnh của SAM 2 được giới thiệu đến từ hệ thống data có tên SA-V với dữ liệu gồm 51.000 videos và 600.000 masklets. Data này lớn gấp 4.5 lần model SAM.
51.000 videos thì bạn biết Meta lấy từ đâu rồi đấy, số lượng video này cover tất tần tật mọi thứ trên cái mạng xã hội gì đó, tức là gần như mọi thứ mà bạn có thể nghĩ ra. Còn masklet là quá trình mà con người chú thích để phân biệt các đối tượng, SAM 2 học hỏi từ đó, đưa vào data, và quá trình này tiếp tục lặp đi lặp lại, số lượng này bao gồm rất nhiều quá trình mà bạn có thể nghĩ ra, giúp cho SAM 2 bắt dính mọi đối tượng thò thụt tùy ý.
Kết quả:
SAM 2 có thể xử lý video với 44 khung hình/ giây
SAM 2 xử lý nhanh gấp 6 đến 8 lần SAM, tùy từng điều kiện của data đầu vào.
Hạn chế
Theo dõi nhiều đối tượng hoặc đôi tượng chuyển động quá nhanh thì SAM 2 vẫn tỏ ra chưa chính xác.
Cài đặt
Hiện tại nếu bạn giỏi code bạn có thể tự tải model về để code
Nếu không, bạn có thể tải workflow comfyUI (vẫn đang thử nghiệm) tại đây.
Link tham khảo:
Tải SAM 2: tại đây
Thông tin model SA-V: tại đây
Thử dùng SAM 2: tại đây
Thông tin chính thức: tại đây
Website chính thức: tại đây