Gã khổng lồ tìm kiếm Baidu, công ty được mệnh danh là Google của Trung Quốc vừa công bố một thành tựu mới trong lĩnh vực trí tuệ nhân tạo. Theo Futurism, công ty đã phát triển thành công một chương trình, ứng dụng mạng nơ-ron có khả năng bắt chước giọng nói sau khi nghe một đoạn clip khoảng vài giây.
Không chỉ có khả năng bắt chước giọng nói, chương trình còn có thể thay đổi giọng nói đó sang giới tính khác hay thậm chí nhấn nhá trọng âm như con người. Bạn đọc có thể nghe qua một số ví dụ đã được tạo ra từ chương trình này tại đây.
Những lần thử trước của công nghệ này đã cho phép hệ thống có thể nhái lại giọng nói sau khi phân tích một mẫu phát biểu dài hơn. Vào năm 2017, nhóm nghiên cứu Baidu Deep Voice đã giới thiệu công nghệ có thể nhân bản giọng nói trong vòng 30 phút huấn luyện.
Adobe cũng có một chương trình có tên Voco với khả năng bắt chước giọng nói với chỉ 20 phút lắng nghe. Hay một start-up tại Canada đã tạo ra Lyrebird với khả năng bắt chước giọng nói trong vòng chỉ 1 phút. Nhưng Baidu thậm chí còn tiến xa hơn thế khi phát triển thành công AI mới có thể bắt chước lại giọng nói chỉ sau vài giây.
Công nghệ AI mới của Baidu được kỳ vọng sẽ giúp tạo ra những trợ lý ảo thông minh hay các dịch vụ dịch thuật giọng nói nghe tự nhiên hơn. Tuy nhiên giống như nhiều công nghệ khác, bắt chước giọng nói cũng có nguy cơ bị lạm dụng nếu không kiểm soát tốt.
Theo trang New Scientist, giọng nói từ chương trình AI mới của Baidu có thể đánh lừa các hệ thống nhận diện giọng nói khác với độ chính xác lên tới 95%. Con người thậm chí còn đánh giá khả năng bắt chước giọng nói của AI này với điểm số 3,16 trong thang điểm 4. Như vậy, bên cạnh những lợi ích vô cùng tích cực, AI này tiềm ẩn nguy cơ bị lợi dụng vào những mục đích xấu rất cao.
Những chương trình hiện tại có thể sử dụng AI để thay thế hoặc hoán đổi, thậm chí tái tạo lại từ đầu khuôn mặt của một cá nhân trong video.
Ví dụ như một chương trình AI của các nhà nghiên cứu tại ĐH. Washington đã cho phép tạo ra một đoạn video giả mạo, mô phỏng bài phát biểu của cựu Tổng thống Barack Obama. AI đóng vai trò mô hình hóa chính xác chuyển động miệng của Obama trong khi ông nói chuyện. Sau đó, bằng những kỹ thuật lồng giọng nói, họ có thể điều khiển Obama "giả" nói bất cứ điều gì họ muốn.
Đoạn video giả mạo mô phỏng bài phát biểu của Tổng thống Barack Obama
Không lâu sau khi công nghệ trên của các nhà khoa học Mỹ dấy lên mối quan ngại lớn liên quan đến video giả mạo thì sự xuất hiện của chương trình có khả năng bắt chước giọng nói của Baidu lại tiếp tục khiến nhiều người lo lắng hơn bởi lẽ, tình trạng tin giả nhiều khả năng sẽ xuất hiện tràn lan hơn trong tương lai.