OpenAI đối mặt với chỉ trích sau cuộc phỏng vấn của CTO trên Sora

ldanh01691248772340 · 17 Tháng Ba 2024 08:48

Những phát biểu của Mira Murati, CTO của OpenAI, về dữ liệu huấn luyện của SORA, hoặc đúng hơn là những phát biểu mà cô ấy không thể đưa ra, đã thu hút phản ứng lớn.

OpenAI, trung tâm nghiên cứu trí tuệ nhân tạo có ảnh hưởng, đứng sau các công cụ đột phá như ChatGPT và Sora, đã vướng vào rắc rối sau một cuộc phỏng vấn gần đây với Giám đốc Công nghệ của mình, Mira Murati.

Cuộc phỏng vấn, được thực hiện bởi phóng viên của Wall Street Journal, Joanna Stern, tập trung vào hệ thống tạo hình ảnh, hoặc chính xác hơn là video, mới nhất của OpenAI, Sora.

Lo ngại tập trung vào việc sử dụng không đúng cách tác phẩm được bảo vệ bản quyền để huấn luyện các mô hình trí tuệ nhân tạo và sự thiếu minh bạch từ OpenAI về các thực hành dữ liệu của mình.

Dữ liệu huấn luyện của Sora đang bị nghi ngờ

Ở trung tâm của vấn đề là vấn đề dữ liệu huấn luyện, các tập dữ liệu lớn được sử dụng để huấn luyện các mô hình trí tuệ nhân tạo.

Khi được hỏi về nguồn dữ liệu được sử dụng cho Sora, Murati cung cấp câu trả lời tiêu chuẩn: mô hình đã được huấn luyện trên “dữ liệu công khai và được cấp phép”.

Tuy nhiên, sự thẩm vấn tiếp theo đã làm Murati do dự và không chắc chắn về các chi tiết cụ thể của bộ dữ liệu này.

Câu trả lời này đã gây ra các tín hiệu đỏ giữa các nghệ sĩ, nhà nhiếp ảnh và các chuyên gia về sở hữu trí tuệ. Các hệ thống tạo hình ảnh trí tuệ nhân tạo phụ thuộc nặng nề vào việc tiêu thụ lượng lớn hình ảnh, trong đó có nhiều hình ảnh có thể được bảo vệ bản quyền. Sự thiếu rõ ràng về dữ liệu huấn luyện của Sora đặt ra câu hỏi về việc liệu OpenAI có đã bảo vệ đúng quyền lợi của các nhà sản xuất nội dung hay không.

Cơ sở dữ liệu huấn luyện của Sora chưa được công bố trên bất kỳ nền tảng chính thức nào.

Việc sử dụng Shutterstock đã được thừa nhận sau này.

Thêm dầu vào lửa là sự từ chối ban đầu của Murati đối diện với việc liệu các hình ảnh từ Shutterstock có phải là một phần của bộ dữ liệu huấn luyện của Sora hay không. Chỉ sau cuộc phỏng vấn, trong một chú thích được thêm vào bởi Wall Street Journal, Murati mới xác nhận việc sử dụng thư viện hình ảnh của Shutterstock.

Xác nhận này trái ngược với quan điểm công khai của OpenAI về “dữ liệu công khai và được cấp phép” và gợi ý một nỗ lực để che giấu các thực hành cung cấp nguồn tiềm ẩn vấn đề.

Shutterstock và OpenAI đã hình thành một liên minh cấp quyền cho OpenAI để sử dụng thư viện hình ảnh của Shutterstock trong việc huấn luyện các mô hình tạo hình ảnh như DALL-E 2 và có thể là Sora.

Đáp lại, các nhà đóng góp của Shutterstock (các nhiếp ảnh gia và nghệ sĩ có hình ảnh trên nền tảng) nhận được bồi thường khi công việc của họ được sử dụng trong quá trình phát triển của các mô hình trí tuệ nhân tạo này.

Một cơn ác mộng về quan hệ công chúng đang diễn ra.

Có thể nói rằng hầu hết những người làm quan hệ công chúng sẽ không coi cuộc phỏng vấn này là một kiệt tác PR.

Sự thiếu minh bạch của Murati đến vào thời điểm nhạy cảm đối với OpenAI, khi họ đã phải đối mặt với các vụ kiện bản quyền lớn, bao gồm một vụ kiện quan trọng được nộp bởi New York Times.

Công chúng đang cận trực theo dõi các thực hành như việc OpenAI được cho là sử dụng bí mật video trên YouTube để huấn luyện mô hình, như đã được báo cáo trước đó bởi The Information. Với các bên liên quan từ nghệ sĩ đến các chính trị gia đòi hỏi sự chịu trách nhiệm, việc tránh né của Murati chỉ làm tăng thêm lửa vào đám cháy.

Phương pháp không minh bạch của OpenAI đang gây ra một phản tác dụng nghiêm trọng, biến cuộc phỏng vấn Sora trở thành một thảm họa PR.

Sự minh bạch không phải là chủ đề được bàn luận nhiều vô ích.

Sự việc này làm nổi bật một sự thật quan trọng: việc tiết lộ sự thật là quan trọng nhất trong thế giới trí tuệ nhân tạo. Những phản ứng lúng túng của OpenAI đã nghiêm trọng làm suy yếu niềm tin công chúng và làm leo thang các câu hỏi về các thực hành đạo đức của nó. Vụ bê bối về Sora làm nổi bật âm thanh ngày càng lớn đòi hỏi sự chịu trách nhiệm lớn hơn trong ngành công nghiệp trí tuệ nhân tạo.

Sự miễn cưỡng của Murati trong việc tiết lộ các thông tin cụ thể về dữ liệu huấn luyện của Sora tạo ra sự không tin và đặt ra một tiền lệ nguy hiểm.

Mà không có sự minh bạch mà các nghệ sĩ, nhà sáng tạo và công chúng đang yêu cầu, các cuộc tranh luận về đạo đức và khả năng có hành động pháp lý chỉ sẽ leo thang lên.

Không có thiên thần nào trong xã hội này.

Trong khi rất nhiều sự chú ý hiện nay tập trung mạnh mẽ vào OpenAI, thì việc nhớ rằng họ không phải là người chơi duy nhất trong trò chơi là rất quan trọng.

Model LLaMA của Facebook AI Research và Gemini của Google cũng đã đối mặt với các cáo buộc về nguồn dữ liệu huấn luyện có vấn đề.

Vấn đề về sự minh bạch trong các phát triển trí tuệ nhân tạo đã nằm trong chương trình đã lâu
Điều này không ngạc nhiên, khi Business Insider đưa tin rằng Meta đã thừa nhận sử dụng các bài đăng trên Instagram và Facebook để huấn luyện các mô hình trí tuệ nhân tạo của mình. Ngoài ra, sự kiểm soát của Google trên một phần lớn của internet đã mang lại cho họ quyền truy cập không giới hạn vào dữ liệu huấn luyện tiềm năng, nâng cao các vấn đề đạo đức tương tự về sự đồng ý và bản quyền.

Tình hình của OpenAI với Sora chỉ là một phần của một bức tranh lớn hơn. Toàn bộ lĩnh vực phát triển trí tuệ nhân tạo đang phải đối mặt với sự kiểm tra chặt chẽ về các thực hành dữ liệu của nó và các tác động đạo đức tiềm ẩn.

cre: dataconomy