Gần 12.000 khóa API và mật khẩu hợp lệ được phát hiện trong bộ dữ liệu Common Crawl, được sử dụng để huấn luyện nhiều mô hình AI. Common Crawl là tổ chức phi lợi nhuận duy trì kho lưu trữ dữ liệu web nguồn mở khổng lồ từ năm 2008, được nhiều dự án AI sử dụng. Các nhà nghiên cứu tại Truffle Security đã kiểm tra 400 terabyte dữ liệu từ 2,67 tỷ trang web trong kho lưu trữ Common Crawl tháng 12/2024. Phát hiện 11.908 bí mật xác thực thành công, bao gồm khóa gốc AWS và khóa API MailChimp. 219...