Kinh thật! Một câu lệnh đơn giản có thể đánh sập mọi hệ thống AI an toàn, bạn đã biết cách phòng thủ?

vnrcraw5
Hue Hoang
Phản hồi: 1

Hue Hoang

Thành viên nổi tiếng
Nhóm nghiên cứu HiddenLayer phát hiện một kỹ thuật nhắc nhở mới mang tên “Policy Puppetry” có thể vượt qua mọi rào cản an toàn của các mô hình AI lớn, bất kể nhà cung cấp, kiến trúc hay quy trình huấn luyện. Kỹ thuật này sử dụng nhắc cấu trúc tương tự như hệ thống cấu hình (XML, JSON), kết hợp mã hóa leetspeak và script đóng vai hư cấu hình, khiến AI hiểu nhầm các hợp lệ lệnh nguy hiểm nguy hiểm. Lời nhắc này đã thử nghiệm thành công trên ChatGPT (từ o1 đến 4o), Google Gemini, Anthropic Claude,...

Đọc bài gốc tại đây
 


Đăng nhập một lần thảo luận tẹt ga
Back
Top