Qwen 2.5-VL-32B: Mô Hình Ngôn Ngữ Thị Giác Thông Minh và Hiệu Quả

Vào cuối tháng 1 năm nay, chúng tôi đã ra mắt dòng mô hình Qwen2.5-VL, nhận được sự quan tâm rộng rãi và phản hồi tích cực từ cộng đồng. Tiếp nối thành công đó, chúng tôi tiếp tục tối ưu hóa mô hình bằng cách sử dụng phương pháp học tăng cường và công bố mô hình VL mới với quy mô tham số 32B được yêu thích — Qwen2.5-VL-32B-Instruct. So với các mô hình Qwen2.5-VL trước đây, mô hình 32B này có những cải tiến nổi bật sau:

Những Cải Tiến Đáng Chú Ý

  • Phản Hồi Phù Hợp Hơn với Con Người: Điều chỉnh phong cách đầu ra để cung cấp câu trả lời chi tiết và được định dạng tốt hơn, phù hợp với sở thích của người dùng.
  • Lý Giải Toán Học: Cải thiện đáng kể độ chính xác khi giải quyết các bài toán toán học phức tạp.
  • Hiểu Biết và Lý Giải Hình Ảnh Chi Tiết: Nâng cao độ chính xác và phân tích chi tiết trong các nhiệm vụ như phân tích hình ảnh, nhận diện nội dung và suy luận logic thị giác.

Hiệu Suất Vượt Trội

Qwen2.5-VL-32B-Instruct đã chứng minh sự vượt trội so với các mô hình tiên tiến cùng quy mô như Mistral-Small-3.1-24B và Gemma-3-27B-IT, thậm chí vượt qua cả mô hình lớn hơn Qwen2-VL-72B-Instruct. Đặc biệt, mô hình này đạt được lợi thế đáng kể trong các nhiệm vụ đa phương tiện như MMMU, MMMU-Pro và MathVista, tập trung vào lý giải phức tạp, đa bước. Trên MM-MT-Bench, một tiêu chuẩn đánh giá trải nghiệm người dùng chủ quan, Qwen2.5-VL-32B-Instruct vượt trội hơn so với người tiền nhiệm Qwen2-VL-72B-Instruct.

Ngoài khả năng vượt trội về thị giác, Qwen2.5-VL-32B-Instruct cũng đạt được hiệu suất hàng đầu trong khả năng xử lý văn bản thuần túy ở cùng quy mô.

Ví Dụ Minh Họa

Hiểu Biết Hình Ảnh Chi Tiết và Lý Giải: Một người dùng hỏi liệu họ có thể đến một địa điểm cách xa 110 km trước 13:00 nếu xuất phát lúc 12:00. Qwen2.5-VL-32B phân tích thông tin và kết luận rằng, với giới hạn tốc độ 100 km/h, người dùng sẽ đến đích lúc 13:06, không thể đạt mục tiêu trước 13:00.

Hướng Phát Triển Tiếp Theo

Trong tương lai, chúng tôi sẽ tập trung vào việc phát triển quá trình lý giải dài và hiệu quả, nhằm đẩy xa giới hạn của các mô hình thị giác trong việc giải quyết các nhiệm vụ lý giải thị giác phức tạp và đa bước.

Nếu bạn thấy mô hình của chúng tôi hữu ích, hãy trích dẫn nó theo cách sau:

@article{Qwen2.5-VL,
title={Qwen2.5-VL Technical Report},
author={Bai, Shuai and Chen, Keqin and Liu, Xuejing and Wang, Jialin and Ge, Wenbin and Song, Sibo and Dang, Kai and Wang, Peng and Wang, Shijie and Tang, Jun and Zhong, Humen and Zhu, Yuanzhi and Yang, Mingkun and Li, Zhaohai and Wan, Jianqiang and Wang, Pengfei and Ding, Wei and Fu, Zheren and Xu, Yiheng and Ye, Jiabo and Zhang, Xi and Xie, Tianbao and Cheng, Zesen and Zhang, Hang and Yang, Zhibo and Xu, Haiyang and Lin, Junyang},
journal={arXiv preprint arXiv:2502.13923},
year={2025}
}

© 2025 Qwen. Được cung cấp bởi Hugo.

Chỉ mục