Deepseek vừa chia sẻ trên X như sau: Giới thiệu NSA: Cơ chế Sparse Attention được liên kết với phần cứng và có thể đào tạo gốc để đào tạo & suy luận ngữ cảnh dài cực nhanh! Các thành phần cốt lõi của NSA: • Chiến lược thưa thớt phân cấp động • Nén mã thông báo thô • Lựa chọn mã thông báo chi tiết Với thiết kế được tối ưu hóa cho phần cứng hiện đại, NSA tăng tốc suy luận trong khi giảm chi phí đào tạo trước—mà không ảnh hưởng đến hiệu suất. Nó phù hợp hoặc vượt trội...