OpenAI đã công bố một mô hình AI sinh sản mới hàng đầu vào thứ Hai, mà họ gọi là GPT-4o - “o” tượng trưng cho “omni”, ám chỉ khả năng xử lý văn bản, giọng nói và video của mô hình. GPT-4o sẽ được triển khai “theo từng giai đoạn” trên các sản phẩm hướng đến nhà phát triển và người tiêu dùng của công ty trong vài tuần tới.
Giám đốc công nghệ của OpenAI, Mira Murati, cho biết GPT-4o cung cấp trí thông minh “ở cấp độ GPT-4” nhưng cải thiện khả năng của GPT-4 trên nhiều phương tiện và hình thức truyền thông.
“GPT-4o lý luận qua giọng nói, văn bản và hình ảnh,” Murati nói trong một bài thuyết trình trực tuyến tại văn phòng của OpenAI ở San Francisco vào thứ Hai. “Và điều này cực kỳ quan trọng, bởi vì chúng ta đang nhìn vào tương lai của sự tương tác giữa chúng ta và máy móc.”
GPT-4 Turbo, mô hình “tiên tiến nhất” trước đây của OpenAI, đã được huấn luyện kết hợp giữa hình ảnh và văn bản, và có thể phân tích hình ảnh và văn bản để thực hiện các nhiệm vụ như trích xuất văn bản từ hình ảnh hoặc thậm chí mô tả nội dung của những hình ảnh đó. Nhưng GPT-4o đã thêm giọng nói vào hỗn hợp.
Điều này cho phép điều gì? Một loạt các thứ.
GPT-4o cải thiện đáng kể trải nghiệm trong chatbot được hỗ trợ bởi AI của OpenAI, ChatGPT. Nền tảng này từ lâu đã cung cấp một chế độ giọng nói chuyển đổi các phản hồi của chatbot thành giọng nói thông qua mô hình chuyển văn bản thành giọng nói, nhưng GPT-4o đã tăng cường điều này, cho phép người dùng tương tác với ChatGPT giống như một trợ lý hơn.
Ví dụ, người dùng có thể hỏi ChatGPT được hỗ trợ bởi GPT-4o một câu hỏi và ngắt lời ChatGPT trong khi nó đang trả lời. Mô hình cung cấp khả năng phản hồi “thời gian thực”, OpenAI cho biết, và thậm chí có thể nhận ra những nét tinh tế trong giọng nói của người dùng, tạo ra giọng nói với “một loạt các phong cách cảm xúc khác nhau” (bao gồm cả việc hát).
GPT-4o cũng nâng cấp khả năng nhìn của ChatGPT. Khi được cung cấp một bức ảnh — hoặc màn hình máy tính — ChatGPT giờ đây có thể nhanh chóng trả lời các câu hỏi liên quan, từ các chủ đề như “Điều gì đang xảy ra trong đoạn mã phần mềm này?” đến “Người này đang mặc áo sơ mi thương hiệu gì?”
Ứng dụng máy tính để bàn ChatGPT được sử dụng trong một nhiệm vụ lập trình.
Những tính năng này sẽ tiếp tục phát triển trong tương lai, Murati nói. Trong khi hiện nay GPT-4o có thể nhìn vào một bức ảnh của thực đơn bằng một ngôn ngữ khác và dịch nó, trong tương lai, mô hình có thể cho phép ChatGPT, ví dụ, “xem” một trận đấu thể thao trực tiếp và giải thích luật lệ cho bạn.
“Chúng tôi biết rằng những mô hình này đang trở nên phức tạp hơn và hơn nữa, nhưng chúng tôi muốn trải nghiệm tương tác thực sự trở nên tự nhiên, dễ dàng hơn, và bạn không cần tập trung vào giao diện người dùng chút nào, mà chỉ tập trung vào sự hợp tác với ChatGPT,” Murati nói. “Trong vài năm qua, chúng tôi đã tập trung rất nhiều vào việc cải thiện trí thông minh của những mô hình này… Nhưng đây là lần đầu tiên chúng tôi thực sự tiến một bước lớn về sự dễ sử dụng.”
GPT-4o cũng đa ngôn ngữ hơn, OpenAI tuyên bố, với hiệu suất được cải thiện trong khoảng 50 ngôn ngữ. Và trong API của OpenAI, GPT-4o nhanh gấp đôi, giá rẻ hơn một nửa và có giới hạn tốc độ cao hơn GPT-4 Turbo, công ty nói.
Hiện tại, giọng nói không phải là một phần của API GPT-4o cho tất cả khách hàng. OpenAI, trích dẫn nguy cơ lạm dụng, nói rằng họ dự định đầu tiên ra mắt hỗ trợ cho khả năng âm thanh mới của GPT-4o cho “một nhóm nhỏ các đối tác đáng tin cậy” trong những tuần tới.
GPT-4o có sẵn trong gói miễn phí của ChatGPT bắt đầu từ hôm nay, và cho người đăng ký các kế hoạch cao cấp ChatGPT Plus và Team với “giới hạn tin nhắn cao hơn 5 lần”. (OpenAI lưu ý rằng ChatGPT sẽ tự động chuyển sang GPT-3.5, một mô hình cũ hơn và kém khả năng hơn, khi người dùng đạt đến giới hạn tốc độ.) Trải nghiệm giọng nói ChatGPT được cải thiện bởi GPT-4o sẽ đến trong phiên bản alpha cho người dùng Plus trong tháng tới hoặc sớm hơn, cùng với các tùy chọn tập trung vào doanh nghiệp.
Trong tin tức liên quan, OpenAI thông báo rằng họ đang phát hành một giao diện người dùng ChatGPT mới mẻ trên web với màn hình chính “thân mật hơn” và bố cục tin nhắn mới, và một phiên bản máy tính để bàn của ChatGPT cho macOS cho phép người dùng đặt câu hỏi qua phím tắt hoặc chụp và thảo luận về ảnh chụp màn hình. Người dùng ChatGPT Plus sẽ được truy cập ứng dụng đầu tiên, bắt đầu từ hôm nay, và phiên bản Windows sẽ ra mắt sau trong năm.
Nơi khác, GPT Store, thư viện chatbot của bên thứ ba được xây dựng trên các mô hình AI của OpenAI, giờ đây đã có sẵn cho người dùng của gói miễn phí ChatGPT. Và người dùng miễn phí có thể tận dụng các tính năng ChatGPT mà trước đây được giới hạn cho người trả phí, như khả năng “nhớ” memory capability cho phép ChatGPT “nhớ” các sở thích cho các tương tác trong tương lai.
cre: techcrunch