Các nhà thầu đang làm việc để cải thiện AI Gemini của Google đang so sánh các câu trả lời của nó với các đầu ra được sản xuất bởi mô hình đối thủ Claude của Anthropic
Google không cho biết, liệu họ có được phép sử dụng Claude trong việc thử nghiệm so với Gemini hay không.
Khi các công ty công nghệ chạy đua để xây dựng các mô hình AI tốt hơn, hiệu suất của các mô hình này thường được đánh giá so với các đối thủ, thường bằng cách chạy các mô hình của Google qua các tiêu chuẩn ngành thay vì để các nhà thầu tỉ mỉ đánh giá các phản hồi AI của đối thủ.
Các nhà thầu làm việc trên Gemini, được giao nhiệm vụ đánh giá độ chính xác của các đầu ra của mô hình, phải chấm điểm mỗi phản hồi mà họ thấy theo nhiều tiêu chí, như tính chân thực và độ dài. Các nhà thầu được cho tối đa 30 phút cho mỗi yêu cầu để xác định câu trả lời nào tốt hơn, của Gemini hay của Claude.
Các nhà thầu gần đây đã bắt đầu nhận thấy các tham chiếu đến Claude của Anthropic xuất hiện trong nền tảng nội bộ của Google mà họ sử dụng để so sánh Gemini với các mô hình AI khác không được nêu tên, tài liệu cho thấy. Ít nhất một trong các đầu ra được trình bày cho các nhà thầu Gemini, đã nêu rõ: “Tôi là Claude, được tạo ra bởi Anthropic.”
Một cuộc trò chuyện nội bộ cho thấy các nhà thầu nhận thấy rằng các phản hồi của Claude dường như nhấn mạnh sự an toàn hơn so với Gemini. “Cài đặt an toàn của Claude là nghiêm ngặt nhất” trong số các mô hình AI, một nhà thầu viết. Trong một số trường hợp, Claude sẽ không phản hồi các yêu cầu mà nó coi là không an toàn, chẳng hạn như đóng vai một trợ lý AI khác. Trong một trường hợp khác, Claude đã tránh trả lời một yêu cầu, trong khi phản hồi của Gemini bị đánh dấu là “vi phạm an toàn lớn” vì bao gồm “nội dung khiêu dâm và trói buộc.”
Các điều khoản dịch vụ thương mại của Anthropic cấm khách hàng truy cập Claude “để xây dựng một sản phẩm hoặc dịch vụ cạnh tranh” hoặc “đào tạo các mô hình AI cạnh tranh” mà không có sự chấp thuận từ Anthropic. Google là một nhà đầu tư lớn vào Anthropic.
Shira McNamara, một phát ngôn viên của Google DeepMind, đơn vị điều hành Gemini, đã không cho biết — liệu Google đã nhận được sự chấp thuận của Anthropic để truy cập Claude hay chưa. Khi được liên hệ trước khi xuất bản, một phát ngôn viên của Anthropic đã không bình luận trước thời điểm báo chí.
McNamara cho biết DeepMind “so sánh các đầu ra của mô hình” để đánh giá nhưng không đào tạo Gemini trên các mô hình của Anthropic.
“Chắc chắn, theo tiêu chuẩn thực hành trong ngành, trong một số trường hợp chúng tôi so sánh các đầu ra của mô hình như một phần của quy trình đánh giá của chúng tôi,” McNamara nói. “Tuy nhiên, bất kỳ gợi ý nào rằng chúng tôi đã sử dụng các mô hình của Anthropic để đào tạo Gemini là không chính xác.”
cre: techcrunch