Giới thiệu Gemini: mô hình AI lớn nhất và năng lực nhất của Google

Giới thiệu Gemini

Demis Hassabis, CEO và Đồng Sáng Lập của Google DeepMind, thay mặt cho nhóm Gemini

Trí tuệ nhân tạo đã là trọng tâm công việc cả đời tôi, như với nhiều đồng nghiệp nghiên cứu của tôi. Kể từ khi lập trình AI cho trò chơi máy tính khi còn là thiếu niên, và suốt những năm làm nghiên cứu viên về khoa học thần kinh để hiểu về cơ chế hoạt động của bộ não, tôi luôn tin rằng nếu chúng ta có thể xây dựng máy móc thông minh hơn, chúng ta có thể sử dụng chúng để mang lại lợi ích phi thường cho nhân loại.

Lời hứa về một thế giới được trao quyền một cách có trách nhiệm bởi AI tiếp tục thúc đẩy công việc của chúng tôi tại Google DeepMind. Trong một thời gian dài, chúng tôi đã muốn xây dựng một thế hệ mới của các mô hình AI, lấy cảm hứng từ cách con người hiểu và tương tác với thế giới. AI cảm thấy ít giống một phần mềm thông minh và nhiều hơn như thứ gì đó hữu ích và trực quan — một người trợ giúp hoặc trợ lý chuyên nghiệp.

Hôm nay, chúng tôi tiến gần hơn một bước với tầm nhìn này khi chúng tôi giới thiệu Gemini, mô hình chung và năng lực nhất mà chúng tôi từng xây dựng.

Gemini là kết quả của những nỗ lực hợp tác quy mô lớn của các nhóm khắp Google, bao gồm các đồng nghiệp của chúng tôi tại Google Research. Nó được xây dựng từ đầu để làm đa phương tiện, có nghĩa là nó có thể tổng quát hóa và hiểu, vận hành một cách liền mạch trên và kết hợp các loại thông tin khác nhau bao gồm văn bản, mã, âm thanh, hình ảnh và video.

Gemini cũng là mô hình linh hoạt nhất của chúng tôi cho đến nay — có khả năng chạy hiệu quả trên mọi thứ từ trung tâm dữ liệu đến thiết bị di động. Khả năng tiên tiến của nó sẽ cải thiện đáng kể cách các nhà phát triển và khách hàng doanh nghiệp xây dựng và mở rộng với AI.

Chúng tôi đã tối ưu hóa Gemini 1.0, phiên bản đầu tiên của chúng tôi, cho ba kích thước khác nhau:

  • Gemini Ultra — mô hình lớn nhất và năng lực nhất của chúng tôi cho các nhiệm vụ
    phức tạp cao.
  • Gemini Pro — mô hình tốt nhất của chúng tôi cho việc mở rộng trên nhiều nhiệm vụ khác nhau.
  • Gemini Nano — mô hình hiệu quả nhất của chúng tôi cho các nhiệm vụ trên thiết bị.

Hiệu suất tiên tiến (State-of-the-art performance)

Chúng tôi đã kiểm tra kỹ lưỡng các mô hình Gemini của mình và đánh giá hiệu suất của chúng trên nhiều loại nhiệm vụ khác nhau. Từ việc hiểu hình ảnh, âm thanh và video tự nhiên đến lý luận toán học, hiệu suất của Gemini Ultra vượt trội so với kết quả tiên tiến hiện tại trên 30 trong số 32 tiêu chuẩn học thuật được sử dụng rộng rãi trong nghiên cứu và phát triển mô hình ngôn ngữ lớn (LLM).

Với điểm số 90,0%, Gemini Ultra là mô hình đầu tiên vượt qua chuyên gia con người trong MMLU (hiểu biết ngôn ngữ đa nhiệm lớn), sử dụng sự kết hợp của 57 chủ đề như toán học, vật lý, lịch sử, luật, y học và đạo đức để kiểm tra cả kiến thức thế giới và khả năng giải quyết vấn đề.

Phương pháp tiếp cận tiêu chuẩn mới của chúng tôi đối với MMLU cho phép Gemini sử dụng khả năng lý luận của mình để suy nghĩ cẩn thận hơn trước khi trả lời các câu hỏi khó, dẫn đến những cải thiện đáng kể so với việc chỉ sử dụng ấn tượng đầu tiên.

Gemini Ultra cũng đạt được điểm số tiên tiến là 59,4% trên chuẩn mực MMMU mới, bao gồm các nhiệm vụ đa phương tiện khác nhau trải dài trên các lĩnh vực yêu cầu lý luận chắc chắn.

Với các chuẩn mực hình ảnh mà chúng tôi đã kiểm tra, Gemini Ultra đã vượt qua các mô hình tiên tiến trước đây, không cần sự hỗ trợ từ các hệ thống nhận dạng ký tự đối tượng (OCR) giúp trích xuất văn bản từ hình ảnh để xử lý thêm. Những chuẩn mực này làm nổi bật tính đa phương tiện bẩm sinh của Gemini và chỉ ra dấu hiệu sớm của khả năng lý luận phức tạp hơn của Gemini.

Khả năng thế hệ tiếp theo (Next-generation)

Cho đến nay, phương pháp tiêu chuẩn để tạo ra các mô hình đa phương tiện bao gồm việc đào tạo các thành phần riêng biệt cho các phương tiện khác nhau và sau đó kết hợp chúng lại để mô phỏng gần đúng một số chức năng này. Những mô hình này đôi khi có thể thực hiện tốt một số nhiệm vụ nhất định, như mô tả hình ảnh, nhưng lại gặp khó khăn với lý luận khái niệm và phức tạp hơn.

Chúng tôi thiết kế Gemini để nó có khả năng đa phương tiện bản chất, được đào tạo trước từ đầu trên các phương tiện khác nhau. Sau đó, chúng tôi tinh chỉnh nó với dữ liệu đa phương tiện bổ sung để tăng cường hiệu quả của nó. Điều này giúp Gemini hiểu và lý luận một cách liền mạch về tất cả các loại đầu vào từ cơ bản, tốt hơn nhiều so với các mô hình đa phương tiện hiện tại - và khả năng của nó ở gần như mọi lĩnh vực đều là tiên tiến nhất.

Lý luận tinh vi (Sophisticated reasoning)

Khả năng lý luận đa phương tiện tinh vi của Gemini 1.0 có thể giúp hiểu biết thông tin viết và hình ảnh phức tạp. Điều này làm cho nó có khả năng độc đáo trong việc khám phá kiến thức có thể khó phát hiện trong số lượng lớn dữ liệu.

Khả năng đáng chú ý của nó trong việc trích xuất thông tin từ hàng trăm nghìn tài liệu thông qua việc đọc, lọc và hiểu thông tin sẽ giúp mang lại những đột phá mới với tốc độ số hóa trong nhiều lĩnh vực từ khoa học đến tài chính.

Hiểu văn bản, hình ảnh, âm thanh và hơn thế nữa

Gemini 1.0 được đào tạo để nhận biết và hiểu văn bản, hình ảnh, âm thanh và nhiều hơn nữa cùng một lúc, vì vậy nó hiểu thông tin tinh tế hơn và có thể trả lời các câu hỏi liên quan đến các chủ đề phức tạp. Điều này làm cho nó đặc biệt giỏi giải thích lý luận trong các chủ đề phức tạp như toán học và vật lý.

Lập trình nâng cao

Phiên bản đầu tiên của Gemini có khả năng hiểu, giải thích và tạo ra mã nguồn chất lượng cao trong các ngôn ngữ lập trình phổ biến nhất thế giới, như Python, Java, C++, và Go. Khả năng làm việc qua các ngôn ngữ và lý luận về thông tin phức tạp khiến nó trở thành một trong những mô hình nền tảng hàng đầu cho lập trình trên thế giới.

Gemini Ultra xuất sắc trong nhiều chuẩn mực lập trình, bao gồm HumanEval, một tiêu chuẩn quan trọng của ngành công nghiệp để đánh giá hiệu suất trong các nhiệm vụ lập trình, và Natural2Code, tập dữ liệu nội bộ của chúng tôi, sử dụng nguồn tạo ra bởi tác giả thay vì thông tin dựa trên web.

Gemini cũng có thể được sử dụng làm động cơ cho các hệ thống lập trình nâng cao hơn. Hai năm trước, chúng tôi đã giới thiệu AlphaCode, hệ thống tạo mã AI đầu tiên đạt được mức độ hiệu suất cạnh tranh trong các cuộc thi lập trình.

Sử dụng một phiên bản chuyên biệt của Gemini, chúng tôi đã tạo ra một hệ thống tạo mã nâng cao hơn, AlphaCode 2, xuất sắc trong việc giải quyết các vấn đề lập trình cạnh tranh vượt ra ngoài lập trình để bao gồm toán học phức tạp và khoa học máy tính lý thuyết.

Khi được đánh giá trên cùng nền tảng với AlphaCode gốc, AlphaCode 2 cho thấy sự cải thiện đáng kể, giải quyết gần gấp đôi số vấn đề, và chúng tôi ước tính rằng nó hoạt động tốt hơn 85% các người tham gia cuộc thi — tăng từ gần 50% cho AlphaCode. Khi các lập trình viên hợp tác với AlphaCode 2 bằng cách xác định một số thuộc tính cho các mẫu mã để tuân theo, nó thực hiện còn tốt hơn.

Chúng tôi rất phấn khích khi các lập trình viên ngày càng sử dụng các mô hình AI có khả năng cao như công cụ hợp tác có thể giúp họ lý luận về các vấn đề, đề xuất thiết kế mã và hỗ trợ với việc thực hiện — để họ có thể phát hành ứng dụng và thiết kế dịch vụ tốt hơn, nhanh hơn.

Đáng tin cậy, có khả năng mở rộng và hiệu quả hơn

Chúng tôi đã đào tạo Gemini 1.0 trên quy mô lớn trên cơ sở hạ tầng tối ưu hóa AI của chúng tôi sử dụng Đơn vị Xử lý Tensor (TPUs) v4 và v5e được thiết kế nội bộ của Google. Và chúng tôi thiết kế nó để là mô hình đáng tin cậy và có khả năng mở rộng nhất để đào tạo, cũng như hiệu quả nhất để cung cấp dịch vụ.

Trên TPUs, Gemini chạy nhanh hơn đáng kể so với các mô hình trước đó, nhỏ hơn và kém năng lực hơn. Những bộ tăng tốc AI được thiết kế tùy chỉnh này đã ở trung tâm của các sản phẩm được hỗ trợ bởi AI của Google phục vụ hàng tỷ người dùng như Tìm kiếm, YouTube, Gmail, Google Maps, Google Play và Android. Chúng cũng đã giúp các công ty trên khắp thế giới đào tạo các mô hình AI quy mô lớn một cách tiết kiệm chi phí.

Hôm nay, chúng tôi thông báo về hệ thống TPU mạnh mẽ, hiệu quả và có khả năng mở rộng nhất cho đến nay, Cloud TPU v5p, được thiết kế để đào tạo các mô hình AI tiên tiến. Thế hệ TPU tiếp theo này sẽ tăng tốc sự phát triển của Gemini và giúp các nhà phát triển và khách hàng doanh nghiệp đào tạo các mô hình AI sinh học quy mô lớn nhanh hơn, cho phép các sản phẩm và khả năng mới đến với khách hàng sớm hơn.

Xây dựng với trách nhiệm và an toàn làm nền tảng

Tại Google, chúng tôi cam kết thúc đẩy AI mạnh mẽ và có trách nhiệm trong mọi thứ chúng tôi làm. Xây dựng dựa trên các Nguyên tắc AI của Google và các chính sách an toàn mạnh mẽ trên toàn bộ sản phẩm của chúng tôi, chúng tôi đang thêm các biện pháp bảo vệ mới để tính đến khả năng đa phương tiện của Gemini. Tại mỗi giai đoạn phát triển, chúng tôi đang xem xét các rủi ro tiềm ẩn và làm việc để kiểm tra và giảm thiểu chúng.

Gemini đã trải qua các đánh giá an toàn toàn diện nhất trong số các mô hình AI của Google cho đến nay, bao gồm về độ thiên lệch và độc hại. Chúng tôi đã tiến hành nghiên cứu mới về các lĩnh vực rủi ro tiềm ẩn như tấn công mạng, thuyết phục và tự chủ, và đã áp dụng các kỹ thuật kiểm tra đối kháng hàng đầu của Google Research để giúp xác định các vấn đề an toàn quan trọng trước khi triển khai Gemini.

Để xác định các điểm mù trong phương pháp đánh giá nội bộ của chúng tôi, chúng tôi đang làm việc với một nhóm đa dạng các chuyên gia

Để hạn chế tổn thương, chúng tôi đã xây dựng các bộ phân loại an toàn chuyên biệt để xác định, gắn nhãn và loại bỏ nội dung liên quan đến bạo lực hoặc định kiến tiêu cực, ví dụ. Kết hợp với các bộ lọc mạnh mẽ, phương pháp này được thiết kế để làm cho Gemini an toàn hơn và bao trùm hơn cho mọi người. Ngoài ra, chúng tôi tiếp tục giải quyết các thách thức đã biết đối với các mô hình như tính chính xác, cơ sở, quy chiếu và xác nhận.

Trách nhiệm và an toàn luôn là trung tâm trong việc phát triển và triển khai các mô hình của chúng tôi. Đây là một cam kết lâu dài đòi hỏi phải xây dựng cùng nhau, vì vậy chúng tôi đang hợp tác với ngành công nghiệp và hệ sinh thái rộng lớn hơn trong việc định nghĩa các phương pháp hay nhất và thiết lập các chuẩn mực an toàn và bảo mật thông qua các tổ chức như MLCommons, Diễn đàn Mô hình Biên giới và Quỹ An toàn AI của nó, cũng như Khung An toàn AI Bảo mật của chúng tôi (SAIF), được thiết kế để giúp giảm thiểu rủi ro an ninh cụ thể cho các hệ thống AI trên cả các lĩnh vực công và tư. Chúng tôi sẽ tiếp tục hợp tác với các nhà nghiên cứu, chính phủ và các nhóm xã hội dân sự trên toàn thế giới khi chúng tôi phát triển Gemini.

cre: blog.google

1 Like