Claude Fable 5 bị bẻ khóa chỉ bằng những câu lệnh tưởng như vô hại? Sự thật đằng sau cuộc thử nghiệm gây chấn động giới AI

Anthropic đang đối mặt với những nghi vấn mới liên quan đến khả năng bảo vệ an toàn của mô hình AI Claude Fable 5 sau khi xuất hiện các cáo buộc cho rằng các nhà nghiên cứu đã bẻ khóa thành công hệ thống này để tạo ra những đầu ra nhạy cảm và có khả năng gây hại, bao gồm hướng dẫn khai thác lỗ hổng và các hoạt động bất hợp pháp. Diễn biến này làm dấy lên lo ngại về hiệu quả của các cơ chế bảo vệ trong các mô hình ngôn ngữ lớn (LLM), đặc...
Đọc bài gốc tại
đây
Đăng nhập một lần thảo luận tẹt ga
var adx_id_11792 = document.getElementById('bg-ssp-11792');
adx_id_11792.id = 'bg-ssp-11792-' + Math.floor(Math.random() * Date.now());
window.pubadxtag = window.pubadxtag || [];
window.pubadxtag.push({zoneid: 11792, id: adx_id_11792.id, wu: window.location.href})