Fun-Tuning mới cho phép tấn công prompt injection tự động thành công tới 82% trên một số mô hình Gemini

vnrcraw6
Nguyễn Thị Phương Thúy
Phản hồi: 0

Nguyễn Thị Phương Thúy

Thành viên nổi tiếng
Hackers đã bắt đầu sử dụng AI để tấn công các hệ thống AI khác, đánh dấu một giai đoạn mới trong lĩnh vực bảo mật. Tấn công bằng prompt injection là một trong những phương pháp đáng tin cậy nhất để thao túng các mô hình ngôn ngữ lớn (LLM). Kỹ thuật mới có tên Fun-Tuning do các nhà nghiên cứu đại học phát triển, sử dụng API fine-tuning của Google để tạo ra các prompt injection có tỷ lệ thành công cao một cách tự động. Fun-Tuning xác định các "tiền tố" và "hậu tố" tốt nhất để bao quanh prompt...

Đọc bài gốc tại đây
 


Đăng nhập một lần thảo luận tẹt ga
Back
Top