Whisper v3 là một mô hình nhận dạng giọng nói đa năng do OpenAI phát triển, có khả năng nhận dạng giọng nói đa ngôn ngữ, dịch thuật và xác định ngôn ngữ, được xây dựng trên kiến trúc Transformer đột phá.
Hãy tưởng tượng một mô hình nhận dạng giọng nói không chỉ hiểu được nhiều ngôn ngữ mà còn dịch thuật chúng một cách rõ ràng, liền mạch. Đó chính là sức mạnh mà Whisper v3 đang sỡ hữu. Nó không chỉ là một mô hình; mà đó là cuộc cách mạng thay đổi ranh giới hiểu biết về dữ liệu âm thanh.
Khả năng chuyển ngữ, dịch và xác định ngôn ngữ trong lời nói từ lâu đã là giấc mơ lớn của công nghệ và OpenAI đã thay đổi và hiện thực hóa được giấc mơ đó.
Cách mạng âm thanh đa diện của Whisper v3:
• Mô hình nhận dạng giọng nói đa năng: Whisper v3, giống như các phiên bản trước, là một mô hình nhận dạng giọng nói đa năng. Nó được thiết kế để chuyển đổi ngôn ngữ nói thành văn bản, làm cho nó trở thành công cụ vô giá cho nhiều ứng dụng khác nhau, bao gồm dịch vụ chép lời, trợ lý giọng nói và hơn thế nữa.
• Khả năng đa nhiệm: Một trong những tính năng nổi bật của Whisper v3 là khả năng đa nhiệm. Nó có thể thực hiện một loạt các nhiệm vụ liên quan đến giọng nói, bao gồm:
o Nhận dạng giọng nói đa ngôn ngữ: Whisper v3 có thể nhận dạng giọng nói bằng nhiều ngôn ngữ, phù hợp với nhiều ngữ cảnh đa dạng.
o Dịch giọng nói: Nó không chỉ chuyển ngữ mà còn dịch sang các ngôn ngữ khác.
o Xác định ngôn ngữ: Mô hình có khả năng xác định ngôn ngữ đang được nói trong phần ghi âm được cung cấp.
o Phát hiện hoạt động giọng nói: Whisper v3 có thể xác định khi nào có giọng nói trong dữ liệu âm thanh, hữu ích cho các ứng dụng như phát hiện giọng nói trong trợ lý về voice.
Các Mô Hình và Ngôn Ngữ Có Sẵn
Whisper v3 cung cấp một loạt các kích cỡ mô hình, trong đó có bốn phiên bản chỉ dành riêng cho tiếng Anh. Những mô hình này khác nhau về sự cân nhắc giữa tốc độ và độ chính xác. Các mô hình có sẵn và yêu cầu bộ nhớ ước lượng cũng như tốc độ suy luận tương đối so với mô hình lớn như sau:
Tiny: 39 triệu tham số, nhanh hơn mô hình lớn khoảng 32 lần, và yêu cầu khoảng 1 GB VRAM.
Base: 74 triệu tham số, nhanh hơn khoảng 16 lần, cũng yêu cầu khoảng 1 GB VRAM.
Small: 244 triệu tham số, nhanh hơn khoảng 6 lần, và cần khoảng 2 GB VRAM.
Medium: 769 triệu tham số, nhanh hơn khoảng 2 lần, và yêu cầu khoảng 5 GB VRAM.
Large: 1550 triệu tham số, phục vụ như một cơ sở so sánh, và cần khoảng 10 GB VRAM.
Các mô hình chỉ dành riêng cho tiếng Anh, đặc biệt là các phiên bản tiny.en và base.en, thường hoạt động tốt hơn, với sự khác biệt trở nên kém đáng kể khi bạn chuyển sang các mô hình small.en và medium.en.
Hiệu suất của Whisper v3 có thể thay đổi đáng kể tùy thuộc vào ngôn ngữ được chuyển ngữ hoặc dịch. Tỉ lệ Lỗi Từ (WERs) và Tỉ lệ Lỗi Ký Tự (CERs) được sử dụng để đánh giá hiệu suất trên các bộ dữ liệu khác nhau. Hiệu suất của mô hình được chi tiết trong các số liệu và số đo cung cấp, mang lại cái nhìn sâu sắc vào cách nó xử lý các ngôn ngữ và nhiệm vụ khác nhau.
Cre: dataconomy