Nguyễn Thị Phương Thúy
Thành viên nổi tiếng
Hackers đã bắt đầu sử dụng AI để tấn công các hệ thống AI khác, đánh dấu một giai đoạn mới trong lĩnh vực bảo mật. Tấn công bằng prompt injection là một trong những phương pháp đáng tin cậy nhất để thao túng các mô hình ngôn ngữ lớn (LLM). Kỹ thuật mới có tên Fun-Tuning do các nhà nghiên cứu đại học phát triển, sử dụng API fine-tuning của Google để tạo ra các prompt injection có tỷ lệ thành công cao một cách tự động. Fun-Tuning xác định các "tiền tố" và "hậu tố" tốt nhất để bao quanh prompt...Đọc bài gốc tại đây