ChatGPT ra mắt tính năng trò chuyện và xử lý hình ảnh

OpenAI - công ty mẹ của ChatGPT đã giới thiệu hàng loạt tính năng mới tiên tiến, cho phép người dùng hỏi đáp bằng hình ảnh, nói chuyện bằng giọng nói với AI theo cách tự nhiên.

Tính năng mới giúp ChatGPT có khả năng “nói, nghe và thấy”

Cụ thể, tính năng hỏi đáp bằng hình ảnh cho phép người dùng có thể chụp ảnh mọi thứ xung quanh, sau đó yêu cầu ChatGPT phân tích ảnh để đưa ra câu trả lời chính xác. Lấy ví dụ trong đoạn video OpenAI đăng tải, người dùng đã gửi hình ảnh xe đạp và hỏi ChatGPT cách hạ yên xe như thế nào là đúng nhất thì công cụ trí tuệ nhân tạo (AI) này đã phản hồi lại rất chuẩn xác.

Đặc biệt, ChatGPT còn có thể xác định được vật thể được khoanh vùng trong bức ảnh mà người dùng đang đề cập. Hơn nữa, người dùng còn có thể sử dụng tính năng camera, cho phép chụp hình và gửi ảnh ngay trong ứng dụng. Có thể nói, tính này này khá tương tự như Google Lens của Alphabet.

Với tính năng trò chuyện, OpenAI cho biết ChatGPT có thể tương tác bằng giọng nói theo phong cách của một trong năm nhân vật mặc định. Đây là tính năng bổ sung quan trọng nhất nhằm thu hút nhiều người tương tác và sử dụng ChatGPT hơn.

Theo bản cập nhật, ChatGPT có thể tranh luận với người dùng bằng giọng nói, kể chuyện hoặc nói to nội dung họ nhập vào bằng văn bản thông qua việc người dùng thực hiện nhấn nút thu âm và trò chuyện trực tiếp với công cụ này. 

Bản thử nghiệm được Washington Post thử nghiệm và đánh giá đã cho biết rằng, các phản hồi có "giọng điệu nhìn chung có vẻ mang tính trò chuyện hơn so với các trợ lý ảo phổ biến như Google Assistant, Alexa hay Siri".

Hiện tại, tính năng hỏi đáp bằng hình ảnh sẽ áp dụng trên ChatGPT Plus và Enterprise ở mọi nền tảng. Trong khi đó, tương tác bằng giọng nói chỉ áp dụng trên điện thoại Android và iOS. Dự kiến, cập nhật mới trên ChatGPT sẽ có mặt cho người dùng trong hai tuần tới.

Ảnh: Bộ Thông tin và Truyền thông

Việc bổ sung khả năng thoại và hình ảnh đưa ChatGPT tiến xa hơn trên con đường trở thành một mô hình đa phương thức thực sự, đó là một chatbot có thể “nhìn” và “nghe” thế giới, cũng như phản hồi bằng giọng nói và hình ảnh bên cạnh văn bản, Washington Post bình luận.

Trong khi đó, các nhà nghiên cứu AI đánh giá mô hình đa phương thức là giai đoạn cạnh tranh tiếp theo trong lĩnh vực trí tuệ nhân tạo. Chúng dự kiến được áp dụng cho nhiều lĩnh vực trong đời sống, như trên smartphone, TV, xe hơi, loa thông minh.

Tag:
chọn
Hình ảnh khu phức hợp Đại sứ quán Mỹ sau hơn năm khởi công
Hình ảnh mới nhất về tiến độ khu phức hợp Đại sứ quán Hoa Kỳ sau hơn năm khởi công.