Các kỹ sư ngăn chặn việc tổng hợp giọng nói lừa đảo bằng cách làm cho công cụ AI khó đọc được các bản ghi âm giọng nói hơn.
Những tiến bộ gần đây trong lĩnh vực trí tuệ nhân tạo sinh sản đã thúc đẩy sự phát triển của công nghệ tổng hợp giọng nói chân thực. Mặc dù công nghệ này có tiềm năng cải thiện cuộc sống thông qua các trợ lý giọng nói cá nhân hóa và công cụ giao tiếp tăng cường khả năng tiếp cận, nó cũng đã dẫn đến sự xuất hiện của deepfake, trong đó giọng nói tổng hợp có thể bị lạm dụng để lừa dối con người và máy móc với mục đích xấu.
Để đối phó với mối đe dọa này, Ning Zhang, giáo sư trợ lý ngành khoa học máy tính và kỹ thuật tại Trường Kỹ thuật McKelvey của Đại học Washington ở St. Louis, đã phát triển một công cụ gọi là AntiFake, một cơ chế phòng vệ mới nhằm ngăn chặn việc tổng hợp giọng nói không được phép trước khi nó xảy ra. Zhang đã trình bày AntiFake vào ngày 27 tháng 11 tại Hội nghị về Máy tính và Bảo mật Truyền thông của Hiệp hội Máy tính ACM tại Copenhagen, Đan Mạch.
Khác với các phương pháp phát hiện deepfake truyền thống, được sử dụng để đánh giá và phát hiện âm thanh tổng hợp như một công cụ giảm thiểu hậu quả sau cuộc tấn công, AntiFake có một lập trường chủ động. Nó sử dụng các kỹ thuật đối kháng để ngăn chặn việc tổng hợp giọng nói lừa dối bằng cách làm cho công cụ AI khó đọc được các đặc tính cần thiết từ các bản ghi âm giọng nói. Mã của nó được cung cấp miễn phí cho người dùng.
“AntiFake đảm bảo rằng khi chúng ta đưa dữ liệu giọng nói ra ngoài, sẽ khó cho tội phạm sử dụng thông tin đó để tổng hợp giọng nói của chúng ta và mạo danh chúng ta,” Zhang nói. “Công cụ sử dụng một kỹ thuật của AI đối kháng mà ban đầu là một phần trong bộ công cụ của tội phạm mạng, nhưng bây giờ chúng tôi đang sử dụng nó để chống lại họ. Chúng tôi làm xáo trộn tín hiệu âm thanh ghi âm chỉ một chút, làm méo hoặc làm xáo trộn nó đủ để nó vẫn nghe đúng với người nghe, nhưng hoàn toàn khác với AI.”
Để đảm bảo AntiFake có thể đối mặt với một bối cảnh thay đổi liên tục của các kẻ tấn công tiềm năng và các mô hình tổng hợp không xác định, Zhang và tác giả chính Zhiyuan Yu, một sinh viên sau đại học trong phòng thí nghiệm của Zhang, đã xây dựng công cụ để nó có thể tổng quát hóa và đã thử nghiệm nó với năm trình tổng hợp giọng nói tiên tiến nhất. AntiFake đã đạt tỷ lệ bảo vệ trên 95%, ngay cả đối với các trình tổng hợp thương mại chưa từng thấy. Họ cũng đã thử nghiệm tính sử dụng của AntiFake với 24 người tham gia để xác nhận công cụ có thể tiếp cận được với các nhóm dân số đa dạng.
Hiện tại, AntiFake có thể bảo vệ các đoạn ghi âm ngắn, nhắm vào loại hình mạo danh giọng nói phổ biến nhất. Nhưng, Zhang nói, không có gì ngăn cản công cụ này được mở rộng để bảo vệ các bản ghi âm dài hơn, hoặc thậm chí âm nhạc, trong cuộc chiến chống lại thông tin sai lệch.
“Cuối cùng, chúng tôi muốn có thể bảo vệ hoàn toàn các bản ghi giọng nói,” Zhang nói. “Mặc dù tôi không biết điều gì sẽ tiếp theo trong công nghệ giọng nói AI - các công cụ và tính năng mới đang được phát triển liên tục - tôi cho rằng chiến lược của chúng tôi trong việc sử dụng các kỹ thuật của đối thủ chống lại họ sẽ tiếp tục hiệu quả. AI vẫn còn dễ bị tổn thương bởi các biến động đối kháng, ngay cả khi các chi tiết kỹ thuật có thể cần thay đổi để duy trì đây là một chiến lược chiến thắng.”
cre: sciencedaily