Claude Fable 5 bị bẻ khóa chỉ bằng những câu lệnh tưởng như vô hại? Sự thật đằng sau cuộc thử nghiệm gây chấn động giới AI

Nguyễn Thị Phương Thúy

Thành viên nổi tiếng
Anthropic đang đối mặt với những nghi vấn mới liên quan đến khả năng bảo vệ an toàn của mô hình AI Claude Fable 5 sau khi xuất hiện các cáo buộc cho rằng các nhà nghiên cứu đã bẻ khóa thành công hệ thống này để tạo ra những đầu ra nhạy cảm và có khả năng gây hại, bao gồm hướng dẫn khai thác lỗ hổng và các hoạt động bất hợp pháp. Diễn biến này làm dấy lên lo ngại về hiệu quả của các cơ chế bảo vệ trong các mô hình ngôn ngữ lớn (LLM), đặc...

Đọc bài gốc tại đây
 


Đăng nhập một lần thảo luận tẹt ga

Thành viên mới đăng

Chi tiết 14 điều khoản trong bản ghi nhớ Mỹ - Iran sắp được ký kết
Một doanh nghiệp nhà nước, một doanh nghiệp tư nhân: Hai “gã khổng lồ” tài sản triệu tỷ của Việt Nam
Tắt điều hòa xong có cần cắt nguồn điện hoàn toàn? Nghe chuyên gia giải đáp nè
Trung Quốc xóa sổ hơn 12.000 ngành học đại học: Ở kỷ nguyên AI, bằng đại học "hết thời"
Bất ngờ với lượng nước khổng lồ ChatGPT tiêu tốn chỉ để trả lời một câu hỏi hay soạn một email
Campuchia hợp tác chưa từng có tiền lệ với FBI để trấn áp lừa đảo trực tuyến
Hai tin buồn cùng một lúc cho người dùng đang chờ iPhone gập
Lốp xe Volkswagen nứt sớm hàng loạt: Hankook, Kumho bị tố kém chất lượng, hãng nói gì?
Claude Fable 5 bị bẻ khóa chỉ bằng những câu lệnh tưởng như vô hại? Sự thật đằng sau cuộc thử nghiệm gây chấn động giới AI
Người dùng Việt Nam nằm trong nhóm nạn nhân của chiến dịch phát tán mã độc mới
Back
Top