Realtime API của OpenAI

Các nhà phát triển hiện có thể xây dựng các trải nghiệm chuyển đổi giọng nói nhanh chóng vào ứng dụng của mình.
image

OpenAI giới thiệu phiên bản beta công khai của Realtime API, cho phép tất cả các nhà phát triển trả phí xây dựng các trải nghiệm đa phương thức, độ trễ thấp trong ứng dụng của họ. Tương tự như chế độ Advance Mode của ChatGPT, Realtime API hỗ trợ các cuộc trò chuyện tự nhiên bằng giọng nói với sáu giọng nói cài sẵn mà API đã hỗ trợ.

Họ cũng giới thiệu khả năng nhập và xuất âm thanh trong Chat Completions API để hỗ trợ các trường hợp không cần đến lợi ích độ trễ thấp của Realtime API. Với bản cập nhật này, các nhà phát triển có thể truyền bất kỳ văn bản hoặc âm thanh đầu vào nào vào GPT-4o và nhận phản hồi dưới dạng văn bản, âm thanh, hoặc cả hai.

Từ các ứng dụng ngôn ngữ và phần mềm giáo dục đến các trải nghiệm hỗ trợ khách hàng, các nhà phát triển đã và đang tận dụng các trải nghiệm giọng nói để kết nối với người dùng. Giờ đây với Realtime API và sắp tới là âm thanh trong Chat Completions API, các nhà phát triển không cần phải kết hợp nhiều mô hình để vận hành các trải nghiệm này. Thay vào đó, họ có thể xây dựng các trải nghiệm hội thoại tự nhiên chỉ với một lệnh gọi API.

Cách hoạt động

Trước đây, để tạo ra trải nghiệm trợ lý giọng nói tương tự, các nhà phát triển phải chuyển âm thanh thành văn bản với mô hình nhận dạng giọng nói tự động như Whisper, sau đó đưa văn bản này vào mô hình ngôn ngữ để suy luận hoặc giải thích, và sau đó phát ra đầu ra của mô hình bằng mô hình chuyển văn bản thành giọng nói. Cách tiếp cận này thường làm mất đi cảm xúc, nhấn mạnh và ngữ điệu, cùng với đó là độ trễ đáng kể. Với Chat Completions API, các nhà phát triển có thể xử lý toàn bộ quy trình chỉ với một lệnh gọi API, mặc dù vẫn chậm hơn so với cuộc hội thoại của con người. Realtime API cải thiện điều này bằng cách truyền trực tiếp đầu vào và đầu ra âm thanh, giúp các trải nghiệm hội thoại trở nên tự nhiên hơn. Nó cũng có thể xử lý các trường hợp gián đoạn một cách tự động, tương tự như Chế Độ Giọng Nói Nâng Cao trong ChatGPT.

Về mặt kỹ thuật, Realtime API cho phép bạn tạo một kết nối WebSocket liên tục để trao đổi thông điệp với GPT-4o. API này hỗ trợ gọi hàm, giúp các trợ lý giọng nói có thể phản hồi các yêu cầu của người dùng bằng cách kích hoạt hành động hoặc kéo vào ngữ cảnh mới. Ví dụ, một trợ lý giọng nói có thể đặt hàng thay mặt người dùng hoặc truy xuất thông tin khách hàng liên quan để cá nhân hóa phản hồi của nó.

Ứng dụng hỗ trợ khách hàng, trợ lý ngôn ngữ và hơn thế nữa

Là một phần của chiến lược triển khai từng bước, OpenAI đã thử nghiệm Realtime API với một số đối tác để thu thập phản hồi khi xây dựng. Một số trường hợp sử dụng hứa hẹn ban đầu bao gồm:

Khả dụng và giá cả

Realtime API sẽ bắt đầu được triển khai ngày hôm nay trong phiên bản beta công khai cho tất cả các nhà phát triển trả phí. Các khả năng âm thanh trong Realtime API được hỗ trợ bởi mô hình GPT-4o mới, gpt-4o-realtime-preview.

Âm thanh trong Chat Completions API sẽ được phát hành trong vài tuần tới, dưới dạng mô hình mới gpt-4o-audio-preview. Với gpt-4o-audio-preview, các nhà phát triển có thể nhập văn bản hoặc âm thanh vào GPT-4o và nhận phản hồi bằng văn bản, âm thanh, hoặc cả hai.

Realtime API sử dụng cả token văn bản và âm thanh. Token đầu vào văn bản có giá $5 mỗi 1 triệu token và đầu ra văn bản có giá $20 mỗi 1 triệu token. Đầu vào âm thanh có giá $100 mỗi 1 triệu token và đầu ra âm thanh có giá $200 mỗi 1 triệu token. Điều này tương đương với khoảng $0.06 mỗi phút đầu vào âm thanh và $0.24 mỗi phút đầu ra âm thanh. Âm thanh trong Chat Completions API sẽ có mức giá tương tự.

An toàn và quyền riêng tư

Realtime API sử dụng nhiều lớp bảo vệ an toàn để giảm thiểu rủi ro lạm dụng API, bao gồm giám sát tự động và xem xét thủ công các đầu vào và đầu ra của mô hình bị gắn cờ. Realtime API được xây dựng trên phiên bản GPT-4o tương tự như Advanced Voice Mode trong ChatGPT, mà họ đã đánh giá kỹ lưỡng bằng cả các phương pháp đánh giá tự động và thủ công, bao gồm cả các đánh giá theo Preparedness Framework của OpenAI, được chi tiết trong Thẻ Hệ Thống GPT-4o. Realtime API cũng sử dụng cùng một hạ tầng an toàn âm thanh mà họ đã xây dựng cho Advanced Voice Mode, mà theo thử nghiệm của họ đã giúp giảm thiểu các tác hại tiềm tàng.

Họ cấm việc tái sử dụng hoặc phân phối đầu ra từ các dịch vụ để spam, lừa đảo, hoặc gây hại cho người khác – và tích cực giám sát các hành vi lạm dụng tiềm tàng. Các chính sách cũng yêu cầu các nhà phát triển phải thông báo rõ ràng cho người dùng của họ rằng họ đang tương tác với AI, trừ khi điều đó đã quá rõ ràng từ bối cảnh.

Trước khi ra mắt, đã thử nghiệm Realtime API với mạng lưới kiểm thử bên ngoài và nhận thấy rằng Realtime API không tạo ra bất kỳ lỗ hổng rủi ro cao nào mà các biện pháp giảm thiểu hiện tại chưa bao phủ. Cũng như tất cả các dịch vụ API khác, Realtime API tuân theo các cam kết bảo mật của doanh nghiệp. OpenAI không đào tạo mô hình của mình trên các đầu vào hoặc đầu ra được sử dụng trong dịch vụ này nếu không có sự cho phép rõ ràng của bạn.

Bắt đầu

Các nhà phát triển có thể bắt đầu xây dựng với Realtime API trong những ngày tới trên Playground hoặc bằng cách sử dụng tài liệu và khách hàng tham khảo của OpenAI.

OpenAI cũng đã làm việc với LiveKit và Agora để tạo các thư viện khách hàng về các thành phần âm thanh như hủy tiếng vang, kết nối lại và cách ly âm thanh, và với Twilio để tích hợp Realtime API với Voice API của Twilio cho phép các nhà phát triển dễ dàng xây dựng, triển khai và kết nối các tác nhân ảo AI với khách hàng thông qua cuộc gọi thoại.

Sắp tới

Khi tiến tới việc phát hành chung, OpenAI đang tích cực thu thập phản hồi để cải thiện Realtime API. Một số tính năng mà họ dự định giới thiệu bao gồm:

  • Nhiều phương thức hơn: Ban đầu, Realtime API sẽ hỗ trợ giọng nói, và họ có kế hoạch bổ sung thêm các phương thức như hình ảnh và video theo thời gian.
  • Tăng giới hạn tốc độ: Hiện tại API giới hạn tốc độ khoảng 100 phiên đồng thời cho các nhà phát triển cấp 5, với giới hạn thấp hơn cho các cấp 1-4.Họ sẽ tăng các giới hạn này theo thời gian để hỗ trợ các triển khai lớn hơn.
  • Hỗ trợ SDK chính thức: Tích hợp hỗ trợ cho Realtime API vào các SDK Python và Node.js của OpenAI.
  • Lưu bộ nhớ lệnh gọi (Prompt Caching): Thêm tính năng hỗ trợ lưu bộ nhớ lệnh gọi để các lượt hội thoại trước đó có thể được xử lý lại với mức chiết khấu.
  • Hỗ trợ mô hình mở rộng: Realtime API cũng sẽ hỗ trợ GPT-4o mini trong các phiên bản tương lai của mô hình này.

OpenAI mong đợi được chứng kiến cách các nhà phát triển tận dụng các khả năng mới này để tạo ra những trải nghiệm âm thanh hấp dẫn cho người dùng trong nhiều trường hợp sử dụng khác nhau, từ giáo dục đến dịch thuật, dịch vụ khách hàng, hỗ trợ tiếp cận và nhiều lĩnh vực khác.

1 Lượt thích

tuyệt vờiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiii

tks bạn nhiều nhaaaaa

1 Lượt thích