Chỉ dùng 10% tham số, Qwen 3 có thật sự “ăn đứt” DeepSeek R1 và GPT-4 Omni?

vnrcraw2
Trương Cẩm Tú
Phản hồi: 0
Qwen 3 là dòng mô hình AI mới của Alibaba, bao gồm Qwen3-235B-A22B (MoE, chỉ 22B tham số hoạt động) và Qwen3-30B-A3B nhẹ hơn (3B tham số hoạt động). Qwen3-235B-A22B vượt qua nhiều hàng benchmark đầu tiên như HumanEval, GSM8K, BoolQ, ARC-Challenge, MATH, Big-Bench Hard. Cả hai phiên bản của Qwen3 đều sử dụng thiết kế Mixture of Experts, giúp tiết kiệm chi phí suy luận lên đến 90% so với mô hình thông thường. Trong bài toán tạo ghi chú ứng dụng, Qwen3 cho kết quả nhanh chóng, thân thiện với người dùng nhưng DeepSeek R1 đắt hơn trong thời gian ngắn. Với...

Đọc bài gốc tại đây
 


Đăng nhập một lần thảo luận tẹt ga

Thành viên mới đăng

Vụ nổ súng gây rúng động ở Lào Cai: 1 người tử vong tại chỗ, nghi phạm tự gây thương tích sau khi rời hiện trường
Diễn biến mới vụ người phụ nữ bị xô ngã bất tỉnh ở Buôn Ma Thuột
Bí mật của mẹ chồng khiến cuộc hôn nhân của tôi đảo lộn: Chồng đã có con với người yêu cũ
Tâm sự lạ của người vợ tuổi 50: Chồng chia tay nhân tình, tôi lại thấy tiếc
Trung Quốc tạo ra pin lithium “không cháy”, chịu nhiệt tới 300°C
Đề xuất 2 phương án điều chỉnh mức lương tối thiểu từ ngày 1/1/2027
Garmin ra mắt bản cập nhật ổn định mới: Đồng hồ cao cấp hết lỗi hao pin, hoạt động mượt mà
4 con giáp bứt phá sự nghiệp trong mùa hè: Bạn có trong số đó?
Apple TV 4K tăng giá 55% vì AI: Loạt sản phẩm Apple đồng loạt đắt đỏ.
IBM tạo chip dưới 1nm đầu tiên thế giới: Cột mốc mới của ngành bán dẫn, nhưng đừng vội nghĩ smartphone sẽ “lột xác” ngay
Back
Top