Trong lĩnh vực siêu phân giải ảnh, các phương pháp dựa trên Vision Transformer (ViT) đã thể hiện hiệu suất ấn tượng. Tuy nhiên, chúng thường đi kèm với độ phức tạp cao, dẫn đến thời gian suy luận chậm và tiêu thụ bộ nhớ lớn. Đặc biệt, các mô hình ViT sử dụng Window Self-Attention (WSA) gặp khó khăn khi xử lý các vùng nằm ngoài cửa sổ của chúng.
Để giải quyết vấn đề này, nhóm nghiên cứu đã đề xuất Low-to-high Multi-Level Transformer (LMLT). Mô hình này sử dụng cơ chế attention với kích thước đặc trưng thay đổi cho từng đầu. Cụ thể, LMLT chia nhỏ đặc trưng ảnh theo chiều kênh, giảm dần kích thước không gian cho các đầu thấp hơn và áp dụng self-attention cho từng đầu.
Ưu Điểm Nổi Bật của LMLT
- Thu thập hiệu quả cả thông tin cục bộ và toàn cục.
- Giải quyết vấn đề biên giới cửa sổ trong self-attention bằng cách tích hợp kết quả từ các đầu thấp vào đầu cao hơn.
- Giảm đáng kể thời gian suy luận và tiêu thụ bộ nhớ GPU.
- Duy trì hoặc thậm chí vượt trội so với các phương pháp siêu phân giải ảnh dựa trên ViT hiện tại.
Các thí nghiệm chuyên sâu đã chứng minh hiệu quả vượt trội của LMLT. Mô hình này không chỉ giảm đáng kể thời gian suy luận và bộ nhớ GPU mà còn duy trì hoặc cải thiện hiệu suất so với các phương pháp tiên tiến khác.
Bạn có thể truy cập mã nguồn của LMLT tại đây.
Nghiên cứu này tiếp tục khẳng định tiềm năng của các mô hình biến đổi thị giác trong việc nâng cao chất lượng hình ảnh, đồng thời mang đến giải pháp tối ưu về hiệu suất và tài nguyên.