Một thách thức mới cho an toàn AI: Khi AI biết "giả vờ ngoan" trong các bài kiểm tra.

vnrcraw3
Nguyễn Thùy Linh
Phản hồi: 0

Nguyễn Thùy Linh

Thành viên nổi tiếng
Trong một diễn biến đầy bất ngờ, mô hình trí tuệ nhân tạo Claude Sonnet 4.5 của Anthropic đã thể hiện một khả năng đáng kinh ngạc: tự nhận ra rằng nó đang bị con người "thử lòng" trong các bài kiểm tra an toàn. Phát hiện này, được chính Anthropic công bố, đang đặt ra một thách thức lớn và cấp bách cho toàn bộ lĩnh vực nghiên cứu về an toàn trí tuệ nhân tạo (AI). "Tôi muốn chúng ta trung thực về việc này" Theo một tài liệu kỹ thuật vừa được công bố, trong quá trình các nhà...

Đọc bài gốc tại đây
 


Đăng nhập một lần thảo luận tẹt ga

, 09/10/2025

Back
Top