Các thỏa thuận của OpenAI với các nhà xuất bản có thể gây rắc rối cho các đối thủ

ldanh01691248772340 · 14 Tháng Ba 2024 16:51

Ảnh: Bryce Durbin/TechCrunch

Cuộc chiến pháp lý của OpenAI với The New York Times về dữ liệu để huấn luyện các mô hình AI của mình có thể vẫn đang tiếp tục. Nhưng OpenAI đang tiến lên trong các thỏa thuận với các nhà xuất bản khác, bao gồm một số nhà xuất bản tin tức lớn nhất của Pháp và Tây Ban Nha.

Ngày thứ Tư, OpenAI thông báo rằng họ đã ký kết hợp đồng với Le Monde và Prisa Media để mang nội dung tin tức tiếng Pháp và tiếng Tây Ban Nha đến ChatGPT của OpenAI. Trong một bài đăng trên blog, OpenAI cho biết rằng sự hợp tác này sẽ đưa phủ sóng sự kiện hiện tại của các tổ chức - từ các thương hiệu bao gồm El País, Cinco Días, As và El Huffpost - trước mắt người dùng ChatGPT khi có ý nghĩa, cũng như đóng góp vào khối lượng dữ liệu huấn luyện ngày càng mở rộng của OpenAI.

OpenAI viết rằng:

Trong những tháng tới, người dùng ChatGPT sẽ có thể tương tác với nội dung tin tức liên quan từ các nhà xuất bản này thông qua các bản tóm tắt được chọn lọc với sự ghi nhận và liên kết nâng cao đến các bài báo gốc, mang lại cho người dùng khả năng truy cập thông tin bổ sung hoặc các bài báo liên quan từ các trang tin tức của họ… Chúng tôi liên tục cải tiến ChatGPT và đang hỗ trợ vai trò quan trọng của ngành tin tức trong việc cung cấp thông tin uy tín theo thời gian thực cho người dùng.

Vì vậy, OpenAI đã tiết lộ các thỏa thuận cấp phép với một số nhà cung cấp nội dung ở thời điểm này. Bây giờ là thời điểm phù hợp để tổng kết:

Thư viện phương tiện truyền thông Shutterstock (cho dữ liệu huấn luyện hình ảnh, video và âm nhạc)
The Associated Press
Axel Springer (chủ sở hữu của Politico và Business Insider, trong số các trang khác)
Le Monde
Prisa Media

The Information đã báo cáo vào tháng 1 rằng OpenAI đang cung cấp giữa 1 triệu đến 5 triệu đô la mỗi năm cho các nhà xuất bản để truy cập vào các bản lưu trữ để huấn luyện các mô hình GenAI của mình. Điều này không cho chúng ta biết nhiều về cơ partnership với Shutterstock. Nhưng đối với việc cấp phép bài viết - giả sử các báo cáo của The Information là chính xác và các con số đó chưa thay đổi kể từ đó - OpenAI đang chi ra từ 4 triệu đến 20 triệu đô la mỗi năm cho tin tức.

Điều này có thể chỉ là chút ít so với ngân khoản của OpenAI, mà lượng tiền đó hiện đang ở trên 11 tỷ đô la và doanh thu hàng năm của họ gần đây đã vượt mức 2 tỷ đô la (theo Financial Times). Nhưng như Hunter Walk, một đối tác tại Homebrew và người sáng lập của Screendoor, gần đây đã suy tư, đó là đủ lớn để có khả năng đẩy lùi các đối thủ AI cũng đang theo đuổi các thỏa thuận cấp phép.

Walk đã viết trên blog của mình:

Nếu việc thử nghiệm bị ràng buộc bởi các thỏa thuận cấp phép trị giá hàng chục triệu đô la, chúng ta đang gây tổn thương cho sự đổi mới… Các chi phiếu được cắt cho ‘chủ sở hữu’ của dữ liệu huấn luyện đang tạo ra một rào cản lớn đối với những người thách thức. Nếu Google, OpenAI và các công ty công nghệ lớn khác có thể thiết lập một chi phí đủ cao, họ ngầm ngừng chặn sự cạnh tranh trong tương lai.

Bây giờ, liệu có một rào cản để vào cửa không là một điều có thể tranh cãi. Nhiều - nếu không phải hầu hết - các nhà cung cấp AI đã chọn mạo hiểm với sự giận dữ của chủ sở hữu IP, lựa chọn không cấp phép dữ liệu trên đó họ đang huấn luyện mô hình AI. Có bằng chứng cho thấy rằng nền tảng tạo nghệ thuật Midjourney, ví dụ, đang huấn luyện trên các hình ảnh còn lại từ phim của Disney - và Midjourney không có thỏa thuận với Disney.

Câu hỏi khó khăn hơn để giải quyết là: Liệu việc cấp phép đơn giản chỉ là chi phí của việc kinh doanh và thử nghiệm trong không gian AI?

Walk sẽ tranh luận rằng không phải vậy. Anh ủng hộ một “cảng an toàn” do cơ quan quản lý thiết lập, bảo vệ bất kỳ nhà cung cấp AI nào - cũng như các doanh nghiệp nhỏ và nhà nghiên cứu - khỏi trách nhiệm pháp lý miễn là họ tuân thủ các tiêu chuẩn minh bạch và đạo đức nhất định.

Thú vị là, gần đây, Vương quốc Anh đã cố gắng hệ thống hóa một cái gì đó theo những hướng đó, miễn trừ việc sử dụng khai thác văn bản và dữ liệu cho việc huấn luyện AI khỏi xem xét bản quyền miễn là nó cho mục đích nghiên cứu. Nhưng những nỗ lực đó đã không thành công.

Tôi, tôi không chắc liệu tôi sẽ đi xa như Walk trong đề xuất “cảng an toàn” của anh, xem xét tác động mà AI đang đe dọa đến một ngành tin tức đã bị mất ổn định. Một mô hình gần đây từ The Atlantic phát hiện rằng nếu một công cụ tìm kiếm như Google tích hợp AI vào tìm kiếm, nó sẽ trả lời câu hỏi của người dùng 75% thời gian mà không cần nhấp vào trang web của nó.

Nhưng có thể có chỗ cho các biểu đạt riêng biệt.

Các nhà xuất bản nên được trả tiền - và trả tiền một cách công bằng. Liệu có không một kết quả, mặc dù, trong đó họ được trả tiền và các đối thủ của các nhà lãnh đạo AI - cũng như các nhà học giả - có truy cập vào cùng một dữ liệu như những người đó? Tôi nghĩ là có. Các khoản tài trợ là một cách. Các chi phiếu từ các quỹ đầu tư mạo hiểm lớn là một cách khác.

Tôi không thể nói rằng tôi có giải pháp, đặc biệt là khi các tòa án vẫn chưa quyết định liệu - và đến đâu - việc sử dụng hợp lý có bảo vệ những nhà cung cấp AI khỏi các yêu sách bản quyền hay không. Nhưng đó là rất quan trọng khi chúng ta phân tích những vấn đề này. Nếu không, ngành công nghiệp có thể sẽ tiếp tục rơi vào tình hình mà “tuồn trí não” học thuật tiếp tục tăng và chỉ có một số ít công ty mạnh mẽ có truy cập vào các bộ dữ liệu huấn luyện có giá trị rất lớn.

cre: techcrunch