Kinh thật! Một câu lệnh đơn giản có thể đánh sập mọi hệ thống AI an toàn, bạn đã biết cách phòng thủ?

vnrcraw5 · 17:04:39

Nhóm nghiên cứu HiddenLayer phát hiện một kỹ thuật nhắc nhở mới mang tên “Policy Puppetry” có thể vượt qua mọi rào cản an toàn của các mô hình AI lớn, bất kể nhà cung cấp, kiến trúc hay quy trình huấn luyện. Kỹ thuật này sử dụng nhắc cấu trúc tương tự như hệ thống cấu hình (XML, JSON), kết hợp mã hóa leetspeak và script đóng vai hư cấu hình, khiến AI hiểu nhầm các hợp lệ lệnh nguy hiểm nguy hiểm. Lời nhắc này đã thử nghiệm thành công trên ChatGPT (từ o1 đến 4o), Google Gemini, Anthropic Claude,...

Đọc bài gốc tại đây

thanhsonhoangtuan1994 · 18:29:01

thật là nguy hiểm

Có thể bạn quan tâm

Có thể bạn quan tâm

Kinh thật! Một câu lệnh đơn giản có thể đánh sập mọi hệ thống AI an toàn, bạn đã biết cách phòng thủ?

Hue Hoang

Thành viên nổi tiếng

Son Luong Thanh

Thành viên nổi tiếng

Thành viên mới đăng

Bộ Chính trị, Ban Bí thư chỉ định bí thư tỉnh ủy sau sáp nhập tỉnh

Các tuyến đường diễu binh 30/4/2025 tại TPHCM

Mưa như trút nước, các khối diễu binh hiên ngang dưới mưa khiến người dân trầm trồ

Xem trực tiếp sơ duyệt diễu binh 25/4/2025 tại đây! Có bắn đại bác!

Một trung tướng Nga vừa bị khủng bố ở vùng Matxcơva

EU giáng đòn phạt tới gần 800 triệu USD vào Apple và Meta

Nói 'cảm ơn' ChatGPT mỗi năm đốt triệu USD: Lịch sự với AI đang 'giết' Trái Đất hay cứu văn hóa con người?

Bộ An ninh Nhà nước Trung Quốc nhìn thấy nguy cơ tiềm ẩn từ các thiết bị thông minh