Một mô hình đa phương thức như GPT-4 có thể đưa chatbot AI và các ứng dụng AI khác lên tầm cao mới bằng cách kết hợp văn bản và hình ảnh.
OpenAI được biết đến nhiều nhất với các mô hình ngôn ngữ lớn (LLM) tiên tiến được sử dụng để cung cấp năng lượng cho một số chatbot AI phổ biến nhất, chẳng hạn như ChatGPT và Copilot. Các mô hình đa phương thức có thể đưa khả năng của chatbot lên tầm cao mới bằng cách mở ra một loạt các ứng dụng trực quan mới và OpenAI vừa cung cấp một mô hình như vậy cho các nhà phát triển.
Vào thứ Ba, thông qua một bài đăng trên X (trước đây là Twitter), OpenAI đã thông báo rằng GPT-4 Turbo with Vision, mô hình GPT-4 Turbo mới nhất có khả năng về thị giác, hiện đã có sẵn cho các nhà phát triển thông qua OpenAI API.
Mô hình mới nhất này vẫn giữ nguyên cửa sổ 128.000 token và dữ liệu bị cắt từ tháng 12 năm 2023 của GPT-4 Turbo. Điểm khác biệt chính là khả năng thị giác của nó, cho phép nó hiểu hình ảnh và nội dung trực quan.
Trước khi GPT-4 Turbo with Vision được cung cấp, các nhà phát triển phải gọi đến các mô hình riêng biệt cho văn bản và hình ảnh. Bây giờ, các nhà phát triển chỉ cần gọi đến một mô hình có thể thực hiện cả hai nhiệm vụ, giúp đơn giản hóa quy trình và mở ra nhiều trường hợp sử dụng hơn.
OpenAI đã chia sẻ một số cách mà các nhà phát triển đã sử dụng mô hình này và chúng khá hấp dẫn.
Ví dụ: Devin, một trợ lý kỹ thuật phần mềm AI, sử dụng GPT-4 Turbo with Vision để hỗ trợ tốt hơn về việc lập trình. Ứng dụng sức khỏe và thể hình Healthify sử dụng GPT-4 Turbo with Vision để quét ảnh bữa ăn của người dùng và đưa ra thông tin chi tiết về dinh dưỡng thông qua nhận dạng ảnh. Cuối cùng, Make Real sử dụng GPT-4 Turbo with Vision để chuyển đổi bản vẽ của người dùng thành một trang web đang hoạt động.
Mặc dù mô hình GPT-4 Turbo with Vision hiện chưa có trong ChatGPT hoặc công chúng nói chung, nhưng OpenAI đã tiết lộ rằng mô hình này sẽ sớm có sẵn trong ChatGPT. Nếu bạn là một nhà phát triển muốn bắt đầu với API GPT-4 Turbo with Vision của OpenAI, bạn có thể tìm hiểu cách bắt đầu tại đây.
cre: zdnet