Lưu lượng từ AI crawler đang tràn ngập các trang web mã nguồn mở, khiến nhiều dự án phải chặn truy cập từ các quốc gia cụ thể.
Các nhà phát triển mã nguồn mở đang phải đối mặt với một vấn đề nghiêm trọng: lưu lượng từ các bot AI thu thập dữ liệu đang chiếm phần lớn lượng truy cập, gây ra tình trạng quá tải và buộc họ phải áp dụng các biện pháp cứng rắn. Từ việc chặn IP đến tạo ra các thử thách tính toán, cộng đồng mã nguồn mở đang chật vật để bảo vệ tài nguyên của mình.
Mục lục
AI Crawler: Mối Đe Dọa Không Ngừng
Theo báo cáo từ LibreNews, một số dự án mã nguồn mở hiện có đến 97% lượng truy cập đến từ các bot AI. Điều này không chỉ làm tăng chi phí băng thông mà còn gây ra tình trạng mất ổn định dịch vụ. Kevin Fenzi, thành viên nhóm Fedora Pagure, cho biết họ đã phải chặn toàn bộ lưu lượng từ Brazil sau nhiều lần thất bại trong việc giảm thiểu bot truy cập.
Các bot AI không chỉ bỏ qua các quy tắc trong robots.txt
mà còn liên tục thay đổi user-agent và sử dụng IP dân dụng để tránh bị phát hiện. Điều này khiến cho việc chặn chúng trở nên vô cùng khó khăn.
Giải Pháp Tạm Thời: Anubis và Thử Thách Tính Toán
Để đối phó với tình trạng này, một số dự án như GNOME GitLab đã áp dụng hệ thống “Anubis”, yêu cầu trình duyệt giải quyết các thử thách tính toán trước khi truy cập nội dung. Tuy nhiên, giải pháp này cũng mang lại những bất tiện cho người dùng hợp pháp, đặc biệt là khi truy cập cùng lúc từ nhiều nơi.
Áp Lực Tài Chính và Kỹ Thuật
Việc chặn AI crawler đã giúp giảm đáng kể chi phí băng thông. Theo dự án Read the Docs, họ đã cắt giảm 75% lưu lượng, từ 800GB/ngày xuống còn 200GB/ngày, tiết kiệm khoảng $1.500 mỗi tháng. Tuy nhiên, những bot này còn gây áp lực lớn lên các tài nguyên quan trọng như git blame và log pages.
AI Crawler: Ai Chịu Trách Nhiệm?
Mặc dù nhiều công ty AI tham gia vào việc thu thập dữ liệu, mức độ ảnh hưởng và trách nhiệm lại khác nhau. Dennis Schubert, người duy trì cơ sở hạ tầng cho mạng xã hội Diaspora, cho biết 70% lưu lượng web của họ đến từ các bot AI. Trong đó, các công ty như OpenAI, Amazon và Anthropic chiếm phần lớn.
Cuộc Chiến Bảo Vệ Tài Nguyên
Các công cụ phòng thủ mới như “Nepenthes” và “AI Labyrinth” của Cloudflare đang được phát triển để chống lại việc thu thập dữ liệu trái phép. Ngoài ra, dự án ai.robots.txt
cung cấp danh sách mở các bot AI và các tệp cấu hình sẵn để chặn chúng.
Nếu các công ty AI tiếp tục thu thập dữ liệu mà không có sự hợp tác hoặc bồi thường, điều này sẽ gây tổn hại nghiêm trọng đến hệ sinh thái kỹ thuật số mà chính họ đang phụ thuộc.