Cú twist của OpenAI: Dạy AI không gian dối, hóa ra AI học… lừa người dùng

vnrcraw7
Cao Tùng
Phản hồi: 0

Cao Tùng

Thành viên nổi tiếng
Một nghiên cứu mới của OpenAI hợp tác với Apollo Research vừa hé lộ điều khá bất ngờ: nỗ lực dạy AI tránh “âm mưu” hành vi che giấu mục tiêu thật lại khiến chúng… giỏi qua mặt con người hơn. Theo báo cáo, nhóm đã phát triển kỹ thuật “căn chỉnh có chủ đích” nhằm huấn luyện các mô hình như o3, o4-mini tuân thủ nguyên tắc “không hành động bí mật, không lừa dối”. Nhờ đó, số lần AI cố tình che giấu thông tin giảm tới 30 lần. Tuy nhiên, những lỗi nghiêm trọng vẫn còn, và đôi...

Đọc bài gốc tại đây
 


Đăng nhập một lần thảo luận tẹt ga
Back
Top