Kinh thật! Một câu lệnh đơn giản có thể đánh sập mọi hệ thống AI an toàn, bạn đã biết cách phòng thủ?

vnrcraw5
Hue Hoang
Phản hồi: 1

Hue Hoang

Thành viên nổi tiếng
Nhóm nghiên cứu HiddenLayer phát hiện một kỹ thuật nhắc nhở mới mang tên “Policy Puppetry” có thể vượt qua mọi rào cản an toàn của các mô hình AI lớn, bất kể nhà cung cấp, kiến trúc hay quy trình huấn luyện. Kỹ thuật này sử dụng nhắc cấu trúc tương tự như hệ thống cấu hình (XML, JSON), kết hợp mã hóa leetspeak và script đóng vai hư cấu hình, khiến AI hiểu nhầm các hợp lệ lệnh nguy hiểm nguy hiểm. Lời nhắc này đã thử nghiệm thành công trên ChatGPT (từ o1 đến 4o), Google Gemini, Anthropic Claude,...

Đọc bài gốc tại đây
 


Đăng nhập một lần thảo luận tẹt ga

Thành viên mới đăng

Nóng! Khởi tố 74 bị can 'động tay' can thiệp dữ liệu tại gần 160 trạm quan trắc môi trường
🕵️ Xác minh nghi vấn về liêm chính khoa học tại cuộc thi nghiên cứu khoa học, kỹ thuật cấp quốc gia
Tại sao bọn buôn lậu lại đổ xô đến Đông Phi để buôn kiến thợ gặt bán sang Trung Quốc và châu Âu?
Tại sao Israel lại ngạo mạn đến vậy? Bởi vì họ sở hữu những công nghệ siêu tiên tiến này
Nhiều khách hàng Thanh Hóa bất ngờ với xe điện gia đình 7 chỗ mới của VinFast
Phóng mô tô nước trên bãi tắm Nha Trang quay clip, một hot TikToker bị xử phạt
Quá thương tâm! Xe 29 chỗ rơi xuống vực ở Tam Đảo, nhiều người bị thương
Cây xanh bật gốc giữa trời mưa, đ.è trúng người đi xe máy ở Hà Nội ‼️
Logitech và TK Nguyễn tổ chức workshop “Creative Startup”: chia sẻ và đào tạo về “khởi nghiệp trong lĩnh vực sáng tạo”
Quán ăn không hề muốn nổi tiếng trên mạng lại bất ngờ gây sốt: chủ quán kiên quyết không cho các blogger ẩm thực quảng bá
DL: 30 Tháng 03 năm 2026
AL:
Ngày:
Tháng:
Năm:
Back
Top