Các mô hình ngôn ngữ lớn (LLMs) thường được huấn luyện để tạo ra những kết quả chất lượng cao. Tuy nhiên, trong lĩnh vực sáng tạo văn bản, yêu cầu về sự đa dạng trong đầu ra là rất quan trọng. Một nghiên cứu gần đây đã khám phá phương pháp huấn luyện hậu kỳ để tăng cường cả chất lượng và sự đa dạng của các kết quả được tạo ra.
Phương Pháp Mới: Tối Ưu Hóa Đa Dạng
Nhóm nghiên cứu gồm John Joon Young Chung, Vishakh Padmakumar, Melissa Roemmele, Yuqian Sun và Max Kreminski đã đề xuất việc tích hợp độ lệch (deviation) vào quá trình huấn luyện. Độ lệch này đo lường sự khác biệt giữa một mẫu huấn luyện và các mẫu khác có cùng yêu cầu đầu vào. Bằng cách này, mô hình có thể học từ những trường hợp hiếm nhưng chất lượng cao.
Kết Quả Đột Phá
Phương pháp này đã được áp dụng cho các kỹ thuật tối ưu hóa như Direct Preference Optimization (DPO) và Odds Ratio Preference Optimization (ORPO). Kết quả cho thấy, mô hình với 8B tham số đã đạt được mức độ đa dạng tương đương với dữ liệu do con người tạo ra, trong khi vẫn duy trì chất lượng đầu ra ngang bằng với các mô hình hàng đầu như GPT-4o và DeepSeek-R1.
Kiểm Chứng Thực Tiễn
Nghiên cứu cũng bao gồm đánh giá của con người, thử nghiệm loại bỏ yếu tố (ablation) và so sánh với phương pháp đa dạng hóa hiện có là DivPO. Kết quả khẳng định tính hiệu quả của phương pháp mới trong việc cân bằng giữa chất lượng và sự đa dạng.
Đây là bước tiến quan trọng trong việc cải thiện khả năng sáng tạo của các mô hình ngôn ngữ lớn, mở ra nhiều ứng dụng tiềm năng trong lĩnh vực trí tuệ nhân tạo và sáng tạo nội dung.