Elon Musk vừa khoe Grok 3 mạnh nhất thế giới, Deepseek công bố NSA mới tiết kiệm tài nguyên, tăng tốc độ

Deepseek vừa chia sẻ trên X như sau:

Giới thiệu NSA: Cơ chế Sparse Attention được liên kết với phần cứng và có thể đào tạo gốc để đào tạo & suy luận ngữ cảnh dài cực nhanh! Các thành phần cốt lõi của NSA: • Chiến lược thưa thớt phân cấp động • Nén mã thông báo thô • Lựa chọn mã thông báo chi tiết

Với thiết kế được tối ưu hóa cho phần cứng hiện đại, NSA tăng tốc suy luận trong khi giảm chi phí đào tạo trước—mà không ảnh hưởng đến hiệu suất. Nó phù hợp hoặc vượt trội...
Đọc bài gốc tại
đây
Đăng nhập một lần thảo luận tẹt ga
var adx_id_11792 = document.getElementById('bg-ssp-11792');
adx_id_11792.id = 'bg-ssp-11792-' + Math.floor(Math.random() * Date.now());
window.pubadxtag = window.pubadxtag || [];
window.pubadxtag.push({zoneid: 11792, id: adx_id_11792.id, wu: window.location.href})