Bài viết dưới đây là của Bernard Marr, tác giả và diễn giả về kinh doanh, công nghệ và dữ liệu lớn của tạp chí Forbes, được VnReview biên dịch và tổng hợp.
Trong những năm qua, thuật ngữ "deep learning" (học sâu) đã dần len lỏi vào ngôn ngữ kinh doanh mỗi khi có cuộc hội thoại nào bàn về trí tuệ nhân tạo (AI), dữ liệu lớn (Big Data) và phân tích (Analytics). Và với lý do chính đáng – đây là một cách tiếp cận đầy hứa hẹn tới AI khi phát triển các hệ thống tự trị, tự học, những thứ đang cách mạng hóa nhiều ngành công nghiệp.
Học sâu được Google sử dụng trong các thuật toán nhận dạng giọng nói và hình ảnh, còn Netflix và Amazon thì dùng để xác định xem bạn muốn xem gì hay mua gì tiếp theo, và các nhà nghiên cứu tại Viện Công nghệ Massachusetts (MIT) dùng để dự đoán tương lai. Ngành công nghiệp đang ngày càng phát triển này dường như không bao giờ chán nói về việc nó "cách mạng" ra sao, hiện đại như thế nào. Nhưng thực sự thì nó là gì? Và liệu nó có phải là một trào lưu nhất thời được dùng để đẩy "AI kiểu cũ" vào chúng ta, dưới một tên gọi mới quyến rũ hơn thôi?
Trong bài viết trước của mình, tôi đã nói về sự khác biệt giữa AI và học máy (Machine Learning). Tuy học máy thường được mô tả là một khía cạnh của AI, sẽ tốt hơn nếu như chúng ta coi nó là công nghệ tiên tiến nhất ở thời điểm hiện tại – nó là lĩnh vực hứa hẹn nhất của AI trong việc cung cấp những công cụ mà ngành công nghiệp và xã hội có thể sử dụng để thúc đẩy sự thay đổi.
Nếu coi học máy là công nghệ tiên tiến nhất, thì học sâu là "tiên tiến của tiên tiến". Học máy lấy một vài ý tưởng cốt lõi của trí tuệ nhân tạo và tập trung vào việc giải quyết các vấn đề thế giới thực với các mạng thần kinh được thiết kế để bắt chước khả năng đưa ra quyết định của chúng ta. Học sâu, đúng như tên gọi của nó, đi sâu hơn nữa vào một tập hợp các công cụ và kỹ thuật học máy, từ đó áp dụng chúng để giải quyết bất kỳ vấn đề nào đòi hỏi "khả năng tư duy" – con người hay nhân tạo.
Về cơ bản, học sâu là cho một hệ thống máy tính "ăn" rất nhiều dữ liệu, để chúng có thể sử dụng và đưa ra các quyết định về những dữ liệu khác. Dữ liệu này được nạp thông qua các mạng thần kinh, tương tự như học máy. Những mạng lưới này – các cấu trúc logic yêu cầu một loạt các câu hỏi đúng/sai, hoặc trích xuất một giá trị số, của mỗi bit dữ liệu đi qua chúng và phân loại theo các câu trả lời nhận được.
Vì công việc của học sâu là tập trung phát triển những mạng lưới này, chúng đã trở thành "mạng thần kinh sâu" (Deep Neural Network) – những mạng logic phức tạp cần thiết để xử lý các bộ dữ liệu lớn, như thư viện hình ảnh của Google hay Instagram.
Với các bộ dữ liệu toàn diện như vậy, và các mạng logic phức tạp để xử lý phân loại chúng, việc một chiếc máy tính lấy một hình ảnh và nhận dạng với độ chính xác cao trở nên "quá đỗi bình thường".
Các hình ảnh là ví dụ tuyệt vời nhất về cách thức hoạt động của học sâu, vì chúng có chứa nhiều yếu tố khác nhau và để hiểu rõ được làm thế nào để máy tính, với não bộ một chiều chủ yếu dựa trên sự tính toán, có thể học cách giải thích chúng giống như con người. Tuy vậy, học sâu có thể được áp dụng cho bất kỳ hình thức dữ liệu nào – âm thanh, video, lời nói, chữ viết,... – để đưa ra những kết luận như thể do con người thực hiện với tốc độ rất nhanh. Chúng ta hãy thử xem xét một số ví dụ thực tiễn.
Giả sử một hệ thống được thiết kế để tự động ghi nhận và báo cáo có bao nhiêu chiếc xe của một mẫu xe nhất định đã đi ngang qua một con đường. Trước tiên, nó sẽ được quyền truy cập vào một cơ sở dữ liệu khổng lồ về các loại xe, bao gồm hình dáng, kích thước và thậm chí là tiếng của động cơ. Điều này có thể được biên soạn theo cách thủ công hoặc, trong các điều kiện tiên tiến hơn, được thu thập tự động bởi hệ thống nếu như nó được lập trình để tìm kiếm trên internet và lấy dữ liệu mà nó tìm thấy ở đó.
Tiếp theo, nó sẽ lấy dữ liệu cần được xử lý – dữ liệu trong thế giới thực có chứa thông tin chi tiết cần nắm bắt, trong trường hợp này là bởi các camera và microphone bên đường. Bằng cách so sánh dữ liệu từ cảm biến với những dữ liệu mà nó đã "học được", nó có thể phân loại, với một độ chính xác nhất định, từng loại xe đã đi qua con đường đó.
Đến đây mới chỉ là phần đơn giản. Khi chúng ta đi đến phần "sâu", là khi hệ thống bắt đầu biết tích lũy kinh nghiệm, nó sẽ có thể tăng khả năng phân loại của mình bằng cách "tự tập luyện" với những dữ liệu mới mà nó nhận được. Nói cách khác, nó sẽ có thể học hỏi từ chính những sai lầm của nó – giống như chúng ta. Ví dụ, hệ thống có thể phân biệt sai một loại xe khi chỉ chú ý vào hình dáng và tiếng của động cơ mà nó nhận được, bỏ qua những yếu tố khác dù nhỏ hơn nhưng lại là những yếu tố quyết định để phân biệt các loại xe. Bằng cách rút kinh nghiệm, nhận thức được rằng những yếu tố nhỏ ấy cũng rất quan trọng để phân biệt hai chiếc xe, nó sẽ cải thiện độ chính xác trong những lần phân biệt tiếp theo.
Có lẽ cách tốt nhất để kết thúc bài viết này và cung cấp những thông tin chi tiết về lí do tại sao học sâu lại được coi là bước đột phá lớn đến như vậy là đưa ra một số ví dụ về các cách thức mà học sâu đang được sử dụng trong thế giới ngày nay. Những ứng dụng ấn tượng đang được triển khai và nghiên cứu có liên quan đến học sâu bao gồm:
- Cung cấp khả năng điều hướng cho xe tự lái: Với hệ thống cảm biến và phần mềm phân tích trên buồng lái, các xe tự lái có thể học cách nhận dạng những chướng ngại vật có trên đường và có giải pháp xử lý thích hợp bằng cách sử dụng học sâu.
- Phục chế màu cho ảnh đen trắng: thông qua việc dạy cho máy tính cách nhận biết các vật thể và cách mà mắt người nhìn chúng, các hình ảnh và video đen trắng sẽ có thể được tái hiện lại với đầy đủ các màu sắc phù hợp.
- Dự đoán kết quả của các thủ tục pháp lý: Một nhóm các nhà nghiên cứu người Anh và Mỹ đã có thể dự đoán chính xác kết quả của một phiên tòa, sau khi hệ thống máy tính của họ được nạp sẵn những thông tin cơ bản của vụ án.
- Thuốc đặc trị: Các kỹ thuật học sâu hiện đang được dùng để phát triển các loại thuốc đã được chỉnh sửa sao cho phù hợp với bộ gen của bệnh nhân.
- Phân tích và báo cáo tự động: Các hệ thống có thể phân tích dữ liệu và báo cáo những thông tin chi tiết của chúng dưới dạng âm thanh tự nhiên hoặc ngôn ngữ của con người.
- Chơi trò chơi: Các hệ thống học sâu đã và đang được dạy cách chơi (và giành chiến thắng) các trò chơi như cờ vây, Breakout của Atari hay Starcraft.
"Kì thủ" cờ vây AlphaGo của Google là một sản phẩm của Deep Learning |
Rất dễ để chúng ta bị cuốn đi, bị choáng ngợp bởi sự hiện đại, sự tân tiến của những công nghệ này khi chúng được thảo luận. Nhưng trên thực tế, chúng hoàn toàn xứng đáng với mọi sự tán dương mà chúng nhận được. Mọi công cụ, mọi kỹ thuật được các nhà khoa học sử dụng để góp phần cải thiện đời sống của con người – cả hiện tại và tương lai – đều phần lớn là nhờ công của học máy và học sâu.