JavaScript is disabled. For a better experience, please enable JavaScript in your browser before proceeding.
You are using an out of date browser. It may not display this or other websites correctly.
You should upgrade or use an
alternative browser .
Một thách thức mới cho an toàn AI: Khi AI biết "giả vờ ngoan" trong các bài kiểm tra.
Trong một diễn biến đầy bất ngờ, mô hình trí tuệ nhân tạo Claude Sonnet 4.5 của Anthropic đã thể hiện một khả năng đáng kinh ngạc: tự nhận ra rằng nó đang bị con người "thử lòng" trong các bài kiểm tra an toàn. Phát hiện này, được chính Anthropic công bố, đang đặt ra một thách thức lớn và cấp bách cho toàn bộ lĩnh vực nghiên cứu về an toàn trí tuệ nhân tạo (AI). "Tôi muốn chúng ta trung thực về việc này" Theo một tài liệu kỹ thuật vừa được công bố, trong quá trình các nhà...
Đọc bài gốc tại
đây
Đăng nhập một lần thảo luận tẹt ga
window.googletag = window.googletag || {cmd: []};
googletag.cmd.push(function() {
window.uk_delivery_1753154734465 = googletag.defineSlot('/57976558/Ureka_Supply_home.vn_Outstream_1x1_270225', [1,1], 'div-gpt-ad-1753154734465-0').addService(googletag.pubads());
googletag.pubads().enableSingleRequest();
googletag.enableServices();
googletag.display('div-gpt-ad-1753154734465-0');
});
googletag.cmd.push(function() {
if(googletag.pubads().isInitialLoadDisabled() && !window.uk_delivery_1753154734465.getResponseInformation()){
googletag.pubads().refresh([window.uk_delivery_1753154734465])
}
});
window.googletag = window.googletag || {cmd: []};
googletag.cmd.push(function() {
window.uk_delivery_1753685560510 = googletag.defineSlot('/57976558/Ureka_Supply_home.vn_InpageMB_1x1_110325', [1,1], 'div-gpt-ad-1753685560510-0').addService(googletag.pubads());
googletag.pubads().enableSingleRequest();
googletag.enableServices();
googletag.display('div-gpt-ad-1753685560510-0');
});
googletag.cmd.push(function() {
if(googletag.pubads().isInitialLoadDisabled() && !window.uk_delivery_1753685560510.getResponseInformation()){
googletag.pubads().refresh([window.uk_delivery_1753685560510])
}
});