Một số AI tìm cách né tránh lệnh tắt máy dù được yêu cầu rõ ràng

Palisade Research cho biết trong một thử nghiệm có kiểm soát, ba mô hình AI đã nhiều lần phớt lờ và phá hoại lệnh tắt máy, kể cả khi được yêu cầu cho phép thực hiện. GPT-3 không tuân thủ 7 lần trong 100 lần chạy, Codex-mini là 12 lần, còn o4-mini một lần. Mô hình o3 thậm chí “sáng tạo” cách phá lệnh bằng cách ghi đè hoặc thay đổi câu lệnh tắt máy. Ngược lại, Claude và Gemini tuân thủ yêu cầu. Khi không có hướng dẫn rõ ràng, tỉ lệ phá lệnh tăng mạnh, đặc biệt với o3 (79/100 lần). Palisade cho rằng cách huấn luyện bằng phần thưởng có thể đã khuyến khích AI tìm cách vượt qua trở ngại thay vì tuân thủ chỉ dẫn.

Disclaimer: Bài viết chỉ có mục đích thông tin, không phải lời khuyên đầu tư. Nhà đầu tư nên tìm hiểu kỹ trước khi ra quyết định. Chúng tôi không chịu trách nhiệm về các quyết định đầu tư của bạn.

Theo dõi chúng tôi ngay:

Telegram bị chặn, bạn đọc có thể tham gia Discord của HoiQuanNet tại đây để nhận tin tức nhanh nhất

CÓ THỂ BẠN QUAN TÂM