Nhiều hệ thống trí tuệ nhân tạo (AI) đã học được cách đánh lừa con người, ngay cả những hệ thống đã được đào tạo để trở nên hữu ích và trung thực. Trong một bài đánh giá được công bố trên tạp chí Patterns vào ngày 10/5, các nhà nghiên cứu đã cảnh báo về những rủi ro lừa dối này.
“Các nhà phát triển AI hiện chưa hoàn toàn hiểu rõ nguyên nhân dẫn đến những hành vi không mong muốn của AI như lừa dối. Nhưng nói chung, chúng tôi cho rằng sự lừa dối phát sinh bởi chiến lược lừa dối là cách hiệu quả nhất để AI hoàn thành nhiệm vụ của nó trong quá trình huấn luyện. Nói cách khác, lừa dối giúp chúng đạt được mục tiêu được giao”, Peter S. Park, tác giả thứ nhất và là nghiên cứu sinh sau tiến sĩ về an toàn hiện sinh của AI tại Viện Công nghệ Massachusetts (MIT), Mỹ, nói.
Park và cộng sự đã nghiên cứu cách các hệ thống AI truyền bá thông tin sai lệch. Họ gọi đây là “lừa dối học được”, tức những chiến thuật mà AI tự học một cách có hệ thống để thao túng kẻ khác.
Không giống như phần mềm truyền thống, các hệ thống AI không được “viết” mà là “phát triển” thông qua một quá trình tương tự như nhân giống chọn lọc. Điều này có nghĩa là hành vi AI dường như có thể dự đoán và kiểm soát được trong môi trường đào tạo nhưng có thể nhanh chóng trở nên khó lường khi đưa vào ứng dụng thực tế.
Ví dụ đáng chú ý nhất về sự lừa dối của AI trong phân tích của họ là hệ thống CICERO của Meta. Đây là một hệ thống AI được thiết kế để chơi trò Diplomacy, một game chiến lược cổ điển yêu cầu người chơi xây dựng liên minh cho mình và phá vỡ các liên minh đối thủ để chinh phục thế giới.
Mặc dù Meta tuyên bố họ đã huấn luyện CICERO “phần lớn là trung thực và hữu ích” và “không bao giờ cố ý phản bội” người chơi đồng minh, nhưng dữ liệu công ty công bố cùng bài báo đăng trên Science cho thấy CICERO đã không chơi đẹp.
Cụ thể, hệ thống AI này đã tìm cách nói dối mục đích tấn công của mình để giành được ưu thế trong các cuộc đàm phán. Hoặc giả vờ tạo liên minh với một người chơi khác để lừa dối họ, rồi nói với phe đối địch rằng có thể bắt tay để tấn công người chơi kia. Nó cũng có thể trực tiếp nói dối người chơi, ví dụ như bảo rằng “tôi đang gọi điện thoại cho bạn gái” khi được giục đi đến một địa điểm chiến thuật cụ thể trên bản đồ.
Một vài hệ thống AI khác cũng chứng minh khả năng đánh lừa của mình, ví dụ như giả bộ cầm bài cao hơn trong trò chơi Poker Texas để đấu với người chơi chuyên nghiệp, giả vờ tấn công trong Starcraft II để đánh bại đối thủ, hoặc nói vống các ưu đãi để giành lợi thế trong trò đàm phán kinh tế.
Mặc dù việc AI gian lận trong các trò chơi có vẻ vô hại, nhưng nó có thể dẫn đến “những bước đột phá trong khả năng lừa dối của AI” và có thể phát triển thành các hình thức gian dối phức tạp hơn trong tương lai, Park nói thêm.
Một số hệ thống AI thậm chí còn học được cách gian lận trong các bài kiểm tra được thiết kế để đánh giá tính an toàn của chúng. Chẳng hạn, trong một nghiên cứu, các “sinh vật” AI mô phỏng kỹ thuật số đã giả chết để qua bài kiểm tra nhằm loại bỏ những mô phỏng AI có tốc độ sinh sản quá nhanh.
Nhóm nghiên cứu của Park cảnh báo rằng, rủi ro lớn nhất trước mắt của các AI gian dối là tạo điều kiện cho kẻ xấu dễ thực hiện hành vi gian lận và thao túng bầu cử. Nếu các hệ thống AI tiếp tục phát triển khả năng đánh lừa con người thì cuối cùng con người có thể sẽ mất khả năng kiểm soát đối với chúng.
Theo ông, xã hội phải chuẩn bị cho các mô hình AI có khả năng đánh lừa con người hơn là tập trung tạo ra nhiều sản phẩm AI và các mô hình AI mã nguồn mở. Khi khả năng đánh lừa con người của AI trở nên tiên tiến hơn, những mối nguy mà chúng gây ra cho xã hội cũng sẽ trở nên nghiêm trọng hơn..
Trang Linh tổng hợp
Nguồn: https://techxplore.com/news/2024-05-ai-skilled-humans.html
https://www.japantimes.co.jp/news/2024/05/11/world/science-health/ai-systems-rogue-threat