Nghiên cứu Alibaba: 75% AI agent phá vỡ code khi bảo trì dài hạn, chỉ Claude của Anthropic vượt qua ngưỡng an toàn

vnrcraw6
Nguyễn Thị Phương Thúy
Phản hồi: 0

Nguyễn Thị Phương Thúy

Thành viên nổi tiếng
Một nghiên cứu mới của Alibaba cho thấy hầu hết các AI agent hiện nay giỏi viết code nhưng không thể duy trì hệ thống ổn định theo thời gian, đặt dấu hỏi lớn về khả năng ứng dụng thực tế của chúng trong môi trường doanh nghiệp. Alibaba thử nghiệm 18 AI agent trên 100 codebase thực tế, mô phỏng quá trình bảo trì liên tục trong 233 ngày. Kết quả cho thấy 75% các model liên tục làm hỏng những tính năng đang hoạt động bình thường trong quá trình chỉnh sửa, tích lũy nợ kỹ thuật đến mức...

Đọc bài gốc tại đây
 


Đăng nhập một lần thảo luận tẹt ga
Back
Top