Chi Le
Thành viên nổi tiếng
Trong bài báo “Các mô hình ngôn ngữ tự thưởng” của Meta công bố năm ngoái, các tác giả thảo luận về sự tiến hóa của việc đào tạo các mô hình ngôn ngữ lớn (LLM). Theo truyền thống, các mô hình như thế này đã được cải tiến bằng cách sử dụng dữ liệu sở thích của con người, giúp tăng đáng kể khả năng tuân theo hướng dẫn của chúng. Điều này thường đạt được thông qua các kỹ thuật như Học tăng cường từ phản hồi của con người (RLHF), trong đó một mô hình phần thưởng,...
Đọc bài gốc tại đây
Đọc bài gốc tại đây