Trên một bài báo được công bố ngày hôm qua, một nhóm kỹ sư của Microsoft nghiên cứu về trí tuệ nhân tạo đã công bố rằng, tỷ lệ nhận biết sai từ vựng (WER – word erro rate) của công nghệ phát hiện giọng nói chỉ là 5.9%, tương đương với khả năng con người.
Ông Xuedong Huang, Giám đốc ngôn ngữ khoa học của công ty cho biết: "Hệ thống phát hiện giọng nói đã đạt ngang bằng với trình độ của chúng ta. Đây là một thành tựu mang tính lịch sử".
Khả năng nhận dạng giọng nói của máy tính đã ngang bằng với trình độ của con người. |
Sau nhiều thập kỷ thử nghiệm, tỷ lệ sai từ vựng cũng đã dần được cải thiện nhưng chưa thể vượt qua được mức 6.3%. Con số này chưa đủ để làm những nhà nghiên cứu hài lòng. Họ mong muốn công nghệ có thể đạt đến mức hoàn hảo, tức là “ngang ngửa” con người.
Để đạt được mức độ chính xác này, các nhà nghiên cứu đã sử dụng mạng nơron nhân tạo để lưu trữ một lượng lớn dữ liệu - được gọi là Training sets - giúp hệ thống nhận ra những mẫu giọng của con người. Hệ thống cũng được nâng cấp nhận biết những từ có chung gốc nghĩa để phát hiện nhanh chóng và dễ dàng hơn.
Âm thanh và hình ảnh được dùng đồng thời, giúp cho việc sử dụng dữ liệu hiệu quả hơn.
Con số 5.9% thực sự có ý nghĩa rất lớn khi mà cuộc chiến giành thị phần mảng trợ lý kỹ thuật số đang nóng lên trong thời gian gần đây. Cortana, Xbox, Và Windows là những sản phẩm đầu tiên được “thừa hưởng” công nghệ cải tiến này.
Nhóm nghiên cứu cũng mong đợi trong tương lai, phần mềm này sẽ đạt được độ chính xác cao hơn cũng như đảm bảo rằng nhận dạng giọng nói hoạt động tốt hơn trong các tình huống thực tế như tại một nhà hàng ồn ào, một đông đúc hay gặp trở ngại từ những cơn gió mạnh. Công nghệ này cũng mở ra hi vọng, một ngày không xa, những robot hay máy tính có thể hoàn toàn “hiểu” được lời nói của con người.
Microsoft tung ra bản cập nhật giải quyết vấn đề khó chịu nhất trên Windows 10
Đó chính là việc hệ điều hành này cài đặt kèm theo quá nhiều ứng dụng mặc định. |