Claude Fable 5 bị bẻ khóa chỉ bằng những câu lệnh tưởng như vô hại? Sự thật đằng sau cuộc thử nghiệm gây chấn động giới AI

Nguyễn Thị Phương Thúy

Thành viên nổi tiếng
Anthropic đang đối mặt với những nghi vấn mới liên quan đến khả năng bảo vệ an toàn của mô hình AI Claude Fable 5 sau khi xuất hiện các cáo buộc cho rằng các nhà nghiên cứu đã bẻ khóa thành công hệ thống này để tạo ra những đầu ra nhạy cảm và có khả năng gây hại, bao gồm hướng dẫn khai thác lỗ hổng và các hoạt động bất hợp pháp. Diễn biến này làm dấy lên lo ngại về hiệu quả của các cơ chế bảo vệ trong các mô hình ngôn ngữ lớn (LLM), đặc...

Đọc bài gốc tại đây
 


Đăng nhập một lần thảo luận tẹt ga

Thành viên mới đăng

Bước đột phá trong y học: Khôi phục thị lực bằng chip cấy ghép và tái tạo võng mạc
Ngay khi Mỹ và Iran sắp đạt được thỏa thuận, Netanyahu bất ngờ phát động một cuộc tấn công, khiến Trump nếm trải chính thứ vũ khí mà ông ta đã dùng.
5 ông lớn Internet Trung Quốc cùng nhắm đến một ngành tỷ USD, nhưng chiến lược lại hoàn toàn trái ngược
Nữ Viện trưởng Viện Khoa học môi trường và sức khỏe cộng đồng bị khởi tố vì chỉnh sửa kết quả quan trắc nước thải
Tử vi tuần mới 15/6 - 21/6: Tuổi Tý vô vàn áp lực bủa vây, Tuổi Mão bứt tốc vượt lên mạnh mẽ
Cuộc đối đầu trực tiếp giữa Anthropic và chính quyền Trump xoay quanh mô hình AI mới Fable 5
Hàng nghìn kỹ sư Meta ví bộ phận AI mới như 'trại lao động khổ sai' hủy hoại tâm hồn
Công an cảnh báo chiêu lừa mới: Thông tin trên mã vận đơn có thể khiến bạn mất sạch tiền
Chi tiết 14 điều khoản trong bản ghi nhớ Mỹ - Iran sắp được ký kết
Một doanh nghiệp nhà nước, một doanh nghiệp tư nhân: Hai “gã khổng lồ” tài sản triệu tỷ của Việt Nam
Back
Top