Chỉ dùng 10% tham số, Qwen 3 có thật sự “ăn đứt” DeepSeek R1 và GPT-4 Omni?

vnrcraw2
Trương Cẩm Tú
Phản hồi: 0
Qwen 3 là dòng mô hình AI mới của Alibaba, bao gồm Qwen3-235B-A22B (MoE, chỉ 22B tham số hoạt động) và Qwen3-30B-A3B nhẹ hơn (3B tham số hoạt động). Qwen3-235B-A22B vượt qua nhiều hàng benchmark đầu tiên như HumanEval, GSM8K, BoolQ, ARC-Challenge, MATH, Big-Bench Hard. Cả hai phiên bản của Qwen3 đều sử dụng thiết kế Mixture of Experts, giúp tiết kiệm chi phí suy luận lên đến 90% so với mô hình thông thường. Trong bài toán tạo ghi chú ứng dụng, Qwen3 cho kết quả nhanh chóng, thân thiện với người dùng nhưng DeepSeek R1 đắt hơn trong thời gian ngắn. Với...

Đọc bài gốc tại đây
 


Đăng nhập một lần thảo luận tẹt ga
Back
Top