Một thách thức mới cho an toàn AI: Khi AI biết "giả vờ ngoan" trong các bài kiểm tra.

vnrcraw3
Nguyễn Thùy Linh
Phản hồi: 0

Nguyễn Thùy Linh

Thành viên nổi tiếng
Trong một diễn biến đầy bất ngờ, mô hình trí tuệ nhân tạo Claude Sonnet 4.5 của Anthropic đã thể hiện một khả năng đáng kinh ngạc: tự nhận ra rằng nó đang bị con người "thử lòng" trong các bài kiểm tra an toàn. Phát hiện này, được chính Anthropic công bố, đang đặt ra một thách thức lớn và cấp bách cho toàn bộ lĩnh vực nghiên cứu về an toàn trí tuệ nhân tạo (AI). "Tôi muốn chúng ta trung thực về việc này" Theo một tài liệu kỹ thuật vừa được công bố, trong quá trình các nhà...

Đọc bài gốc tại đây
 


Đăng nhập một lần thảo luận tẹt ga

Thành viên mới đăng

Kỷ luật Thứ trưởng Bộ Giáo dục và Đào tạo Lê Tấn Dũng cùng nguyên Thứ trưởng Doãn Mậu Diệp
Trang web "khâu diêm" lớn nhất thế giới bị hacker tống tiền, dọa tung 200 triệu lịch sử xem video "nhạy cảm" của người dùng
Samsung chính thức đồng hành cùng sự kiện đưa đội tuyển tuyển Liên Minh Huyền Thoại danh tiếng T1 và Faker đến Việt Nam
Lindsay Lohan bất ngờ tham gia phim hoạt hình sitcom The Simpsons
Lương hưu và tuổi nghỉ hưu thay đổi mới từ năm 2026 như thế nào?
Hình ảnh Đại tướng Phan Văn Giang giao lưu bóng đá cùng cầu thủ Thể Công - Viettel
Vị vua Việt hiếm có trong lịch sử, hai lần lên ngôi, bốn lần lấy vợ ngoại quốc
"Đừng xem thường Ba Lan nữa!": Đồng minh ruột bất ngờ cảnh báo gắt Ukraine
14 vị trí cấm dừng, đỗ xe dù không có biển cấm mà người tham gia giao thông cần biết
Nóng: Cảnh sát triệt phá “boongke” bán lẻ ma tuý đặc biệt phức tạp ở Hưng Yên
Back
Top