Ngày xưa, việc hợp nhất yêu cầu kéo (PR) đầu tiên của bạn vào một dự án mã nguồn mở đòi hỏi rất nhiều nỗ lực. Giờ đây, bạn có thể tạo ra một sản phẩm thực sự chỉ trong một cuối tuần nhờ các tác nhân lập trình AI như Claude Code. Tuy nhiên, điều này cũng đồng nghĩa với việc lượng thông tin nhiễu tăng vọt. Tôi từng chứng kiến làn sóng các kho lưu trữ “openclaw” xuất hiện ồ ạt, nhưng tỷ lệ giữa sự cường điệu và mức độ duy trì thực tế lại khá chênh lệch.
Với thói quen khám phá các dự án mới gần như mỗi ngày trong hơn hai năm qua, tôi đã dành nhiều thời gian nghiên cứu sâu về lĩnh vực AI Agent. Dưới đây là những kho lưu trữ mã nguồn mở thực sự nổi bật và giữ chân được tôi. Đây không phải là những dự án ngẫu nhiên; tôi đã tình cờ tìm thấy chúng trong hành trình của mình và thậm chí đã xây dựng một số ứng dụng dựa trên chúng. Từ các công cụ cốt lõi cho agent, stack giao diện người dùng, kỹ năng kỹ thuật cho agent lập trình, agent giọng nói, tự động hóa trình duyệt, đến sử dụng máy tính và nhiều hơn nữa. Nếu bạn đang có ý định xây dựng AI Agent vào năm 2026, danh sách này chắc chắn là dành cho bạn.
Nếu bạn là người mới bắt đầu với mã nguồn mở, hãy tham khảo hướng dẫn miễn phí này mà tôi đã tạo cách đây một thời gian. Với bất kỳ dự án nào bạn đang cân nhắc: hãy tìm kiếm một tệp
CONTRIBUTING.mdvà một hồ sơ cộng đồng tích cực.
Hãy cùng đi sâu vào chi tiết.
Mục lục
Các Danh Mục Chính
- Giao Diện Người Dùng (Frontend & UI Layer) (6)
- Kỹ Năng & Plugin (Skills & Plugins) (4)
- Sử Dụng Máy Tính (Computer Use) (6)
- Điều Phối Agent (Agent Orchestration) (6)
- Khung Sườn Agent Lập Trình (Coding Agent Harness) (4)
- Agent Lập Trình Mã Nguồn Mở (Open-Source Coding Agents) (7)
- Tự Động Hóa Trình Duyệt (Browser Automation) (5)
- Thu Thập & Xử Lý Dữ Liệu Web (Web Scraping & Ingestion) (5)
- Framework Đa Agent (Multi-Agent Frameworks) (6)
- Xử Lý Tài Liệu (Document Processing) (7)
- Agent Giọng Nói (Voice Agents) (7)
- Công Cụ Xây Dựng Trực Quan (Visual Builders) (6)
- Tích Hợp Công Cụ & MCP (MCP & Tool Integration) (5)
- Môi Trường Sandbox & Thực Thi Code (Sandboxing & Code Execution) (5)
- Bộ Nhớ Agent (Agent Memory) (5)
- Kiểm Thử & Đánh Giá (Testing & Evaluation) (7)
- Giám Sát & Khả Năng Quan Sát (Monitoring & Observability) (5)
Hãy nhớ rằng, không có thứ tự cụ thể nào trong bài viết này. Mỗi dự án mã nguồn mở đều có giá trị theo cách riêng của nó.
1. Giao Diện Người Dùng (Frontend & UI Layer) – CopilotKit
CopilotKit là một stack frontend toàn diện được thiết kế đặc biệt cho các AI Agent. Trong khi hầu hết các stack agent chỉ cung cấp phần backend và để lại hoàn toàn tầng giao diện người dùng cho bạn, CopilotKit lại tập trung vào việc cung cấp tất cả các khối xây dựng cần thiết cho một giao diện agent mạnh mẽ và thân thiện với người dùng.
CopilotKit cung cấp các thành phần chat, hooks, UI headless cho các giao diện agent tùy chỉnh, các luồng trò chuyện bền vững, tính năng “human-in-the-loop” (người tham gia vào quy trình), trạng thái chia sẻ và một trình kiểm tra tích hợp để gỡ lỗi. Điều đặc biệt là nó hỗ trợ cả ba mẫu UI tạo sinh trong một runtime duy nhất, cho phép agent hiển thị các thành phần trực tiếp thay vì chỉ mô tả chúng (ví dụ như A2UI của Google). Một điểm cộng lớn là CopilotKit cung cấp một máy chủ MCP (Model Context Protocol) cho các agent lập trình, cho phép chúng truy xuất tài liệu trực tiếp mà không bị giới hạn sử dụng.
Với CopilotKit, bạn có thể kết nối trực tiếp với bất kỳ LLM nào chỉ bằng vài dòng code mà không cần framework agent ở backend, đồng thời làm cho agent nhận biết ngữ cảnh của ứng dụng của bạn. Nó cũng hỗ trợ hơn 13 tích hợp chính thức với các framework lớn, mang lại sự linh hoạt cao. Bạn có thể bật các tệp đính kèm đa phương thức như hình ảnh, PDF, âm thanh, video và điều khiển mức độ suy nghĩ của mô hình bằng tham số reasoningEffort.
import {
CopilotRuntime,
copilotRuntimeNextJSAppRouterEndpoint,
} from "@copilotkit/runtime";
import { BuiltInAgent } from "@copilotkit/runtime/v2";
import { NextRequest } from "next/server";
const builtInAgent = new BuiltInAgent({
model: "openai:gpt-5.5",
});
const runtime = new CopilotRuntime({
agents: { default: builtInAgent },
});
export const POST = async (req: NextRequest) => {
const { handleRequest } = copilotRuntimeNextJSAppRouterEndpoint({
runtime,
endpoint: "/api/copilotkit",
});
return handleRequest(req);
};

Thiết kế không phụ thuộc vào framework là yếu tố khiến CopilotKit trở nên thực dụng. Nó được xây dựng trên giao thức AG-UI, một giao thức sự kiện mở cho tương tác giữa agent và người dùng, hiện đã được Google, AWS, Microsoft, LangChain và nhiều nền tảng khác áp dụng. Điều này có nghĩa là nếu bạn chuyển đổi bất kỳ framework hoặc giao thức nào, mọi thứ ở frontend vẫn giữ nguyên.

Với 31.5k sao trên GitHub, CopilotKit là một lựa chọn đáng tin cậy. Tôi đã sử dụng nó cho một vài dự án gần đây, bao gồm một trợ lý tìm kiếm việc làm mà tôi xây dựng bằng LangChain Deep Agents, và nó đã giúp tôi hiển thị tất cả những gì agent đang thực hiện bên trong.
Các Lựa Chọn Thay Thế
- TanStack AI – SDK AI độc lập với framework, không phụ thuộc nhà cung cấp, từ đội ngũ TanStack. Hỗ trợ TypeScript mạnh mẽ, các bộ điều hợp module cho từng nhà cung cấp. Một lựa chọn thay thế trực tiếp cho Vercel AI SDK mà không bị ràng buộc với Next.js.
- Vercel AI SDK – Tốt cho streaming và gọi công cụ trong Next.js. Không trạng thái và gắn liền với hệ sinh thái Vercel.
- Tambo – React SDK tập trung hoàn toàn vào UI tạo sinh. Vẫn còn ở giai đoạn đầu và chưa phải là một stack chat agent đầy đủ.
- Assistant UI – Các nguyên thủy React headless để xây dựng UI chat.
- agent-native – Framework từ Builder.io, nơi agent và UI chia sẻ cùng một mô hình hành động. Định nghĩa hành động một lần, hiển thị chúng cho cả hai. Không có API agent riêng biệt – nếu UI có thể làm được, agent cũng có thể và ngược lại.
2. Kỹ Năng & Plugin (Skills & Plugins) – agent-skills
Khi Anthropic giới thiệu định dạng Skills, hệ sinh thái đã phát triển nhanh chóng. Nhiều người thậm chí còn cho rằng MCP (Model Context Protocol) đã “chết” vì Skills (dù tôi không thực sự tin vào điều đó). Về cơ bản, một kỹ năng là một thư mục chứa tệp SKILL.md, cùng với các thư mục được tổ chức bao gồm hướng dẫn, script và tài nguyên, cung cấp cho các agent những khả năng bổ sung.
Kho lưu trữ chính thức của Anthropic (GitHub) đã có 138k sao và bạn nên đọc blog kỹ thuật của họ để hiểu cách thức “progressive disclosure” (tiết lộ dần dần) hoạt động trong thực tế.
Tuy nhiên, agent-skills của Addy Osmani mới thực sự là “vàng”. Dự án này cung cấp 23 kỹ năng kỹ thuật cấp độ sản xuất với 7 lệnh slash command ánh xạ đến toàn bộ vòng đời phát triển (/spec, /plan, /build, /test, /review, /ship). Các kỹ năng này bao gồm tiêu chí thoát nghiêm ngặt, bảng chống hợp lý hóa và tiết lộ dần dần, đồng thời mã hóa văn hóa kỹ thuật của Google như Hyrum’s Law, Beyonce Rule và phát triển dựa trên trunk-based. Với 43.8k sao trên GitHub, đây là một bộ sưu tập kỹ năng vô cùng giá trị:
agent-skills/
├── skills/ # 23 kỹ năng (22 vòng đời + 1 meta)
│ ├── interview-me/ # Định nghĩa
│ ├── idea-refine/ # Định nghĩa
│ ├── spec-driven-development/ # Định nghĩa
│ ├── planning-and-task-breakdown/ # Lập kế hoạch
│ ├── incremental-implementation/ # Xây dựng
│ ├── context-engineering/ # Xây dựng
│ ├── source-driven-development/ # Xây dựng
│ ├── doubt-driven-development/ # Xây dựng
│ ├── frontend-ui-engineering/ # Xây dựng
│ ├── test-driven-development/ # Xây dựng
│ ├── api-and-interface-design/ # Xây dựng
│ ├── browser-testing-with-devtools/ # Xác minh
│ ├── debugging-and-error-recovery/ # Xác minh
│ ├── code-review-and-quality/ # Đánh giá
│ ├── code-simplification/ # Đánh giá
│ ├── security-and-hardening/ # Đánh giá
│ ├── performance-optimization/ # Đánh giá
│ ├── git-workflow-and-versioning/ # Triển khai
│ ├── ci-cd-and-automation/ # Triển khai
│ ├── deprecation-and-migration/ # Triển khai
│ ├── documentation-and-adrs/ # Triển khai
│ ├── shipping-and-launch/ # Triển khai
│ └── using-agent-skills/ # Meta: cách sử dụng gói này
├── agents/ # 3 persona chuyên gia
├── references/ # 4 danh sách kiểm tra bổ sung
├── hooks/ # Hooks vòng đời phiên
├── .claude/commands/ # 7 lệnh slash command (Claude Code)
├── .gemini/commands/ # 7 lệnh slash command (Gemini CLI)
└── docs/ # Hướng dẫn thiết lập cho từng công cụ
Các Lựa Chọn Thay Thế
- skills.sh – Marketplace giống npm cho các kỹ năng agent. Cài đặt bất kỳ kỹ năng nào bằng
npx skills add <owner/repo>. Bảng xếp hạng cho thấy những gì các nhà phát triển thực sự sử dụng thay vì những gì được cường điệu hóa khi ra mắt. - taste-skill – Các kỹ năng thiết kế di động (tối giản, brutalist, được tinh chỉnh theo GPT) giúp khắc phục tình trạng AI tạo ra nội dung trông chung chung. Một trong số ít kỹ năng làm thay đổi rõ rệt đầu ra của agent. Tôi đã sử dụng nó trong vài tháng.
- Repomix – Đóng gói toàn bộ kho lưu trữ vào một tệp thân thiện với AI. Hữu ích khi bạn cần agent xem toàn bộ codebase cùng một lúc.
3. Sử Dụng Máy Tính (Computer Use) – UI-TARS Desktop
Hầu hết các agent sử dụng máy tính thường chụp ảnh màn hình và yêu cầu một VLM tổng quát đoán tọa độ pixel. UI-TARS được đào tạo end-to-end trên GUI grounding – nó hiểu các phần tử UI như một khái niệm hạng nhất chứ không phải các vùng hình ảnh để nhấp vào. Điều này mang lại khả năng tương tác chính xác và đáng tin cậy hơn nhiều.
Điều thực sự thú vị là tính năng “System-2 reflection” của nó. Sau mỗi hành động, nó so sánh ảnh chụp màn hình trước và sau, sau đó tạo ra một kế hoạch khắc phục nếu có điều gì đó không đúng, thay vì chỉ tiếp tục chuỗi hành động bị lỗi. Điều này giúp agent tự điều chỉnh và hoàn thành nhiệm vụ hiệu quả hơn.


UI-TARS đạt điểm cao hơn trên OSWorld so với Claude Computer Use. Cá nhân tôi tin rằng việc sử dụng thực tế quan trọng hơn nhiều so với các điểm chuẩn. 😊 Ngoài ra, họ còn phát hành Agent TARS – một giao diện CLI và Web UI mang tầm nhìn tương tự + tích hợp công cụ MCP vào terminal và trình duyệt của bạn.
Bạn có thể đưa ra các yêu cầu như: “Hãy giúp tôi đặt chuyến bay sớm nhất từ San Jose đến New York vào ngày 1 tháng 9 và chuyến bay trở về cuối cùng vào ngày 6 tháng 9 trên Priceline.” Tất cả các bản demo đều có trong phần readme của dự án. Với 34k sao trên GitHub, UI-TARS Desktop là một công cụ mạnh mẽ.
Một kho lưu trữ rất thú vị mà tôi đã tìm thấy là Sutando. Đây là một AI agent cá nhân dành cho macOS và chạy trên gói đăng ký Claude Code của bạn với chi phí bổ sung tối thiểu. Các trường hợp sử dụng khá độc đáo. Bạn có thể nói “join my 2pm call” – nó sẽ đọc lịch của bạn, tham gia Zoom qua ứng dụng desktop hoặc Google Meet qua trình duyệt, chụp ảnh màn hình để xác định người tham gia, thực hiện nghiên cứu trực tiếp khi ai đó đặt câu hỏi và viết tóm tắt cho bạn khi cuộc gọi kết thúc.
Hoặc bạn có thể gọi nó từ điện thoại, nói “summon” – nó sẽ mở Zoom với tính năng chia sẻ màn hình và bạn điều khiển máy tính bằng giọng nói trong khi di chuyển.


Khi bạn không giao nhiệm vụ, Sutando sẽ chạy một vòng lặp xây dựng tự động – nó theo dõi tình trạng của chính nó, phát hiện các mẫu trong cách bạn làm việc, khám phá các kỹ năng mới và xây dựng các khả năng còn thiếu, điều này thực sự đáng kinh ngạc. Mặc dù chỉ có khoảng 300 sao trên GitHub, nhưng Sutando thực sự rất thú vị.
Các Lựa Chọn Thay Thế
- Midscene – Cũng từ đội ngũ Web Infra của ByteDance. Tự động hóa UI dựa trên thị giác trên web, Android và iOS từ một API duy nhất. Tích hợp với Playwright và Puppeteer, cung cấp tiện ích mở rộng Chrome, CLI và máy chủ MCP.
- Agent-S – Tiếp cận lập kế hoạch phân cấp, xây dựng cơ sở tri thức từ các tương tác trong quá khứ và sử dụng nó để lập kế hoạch cho các nhiệm vụ trong tương lai. Đạt điểm cao trên OSWorld và WindowsAgentArena.
- Bytebot – Agent desktop AI tự host trong môi trường Linux container hóa. Agent có một máy tính để bàn ảo đầy đủ riêng – trình duyệt, hệ thống tệp, trình quản lý mật khẩu, bất kỳ ứng dụng nào. Chỉ cần
docker-compose uplà nó đã chạy. - cua – Sandbox VM macOS/Linux để agent chạy trên máy ảo, không phải máy thực của bạn, đảm bảo an toàn.
- OpenHands – Môi trường phát triển đầy đủ có thể duyệt, viết mã, chạy thử nghiệm và commit PRs. Được đề cập lại trong phần Agent Lập trình.
4. Điều Phối Agent (Agent Orchestration) – LangGraph
LangGraph là runtime đồ thị có trạng thái được xây dựng trên LangChain. Đây là framework trưởng thành nhất để xây dựng, quản lý và triển khai các agent chạy dài, có trạng thái. Trong LangGraph, mỗi vòng lặp là một đồ thị, mỗi bước là một nút, và trạng thái được định kiểu và kiểm tra. Bạn có thể tạm dừng tại bất kỳ nút nào, tuần tự hóa toàn bộ trạng thái vào đĩa, và tiếp tục trên một máy khác sau nhiều ngày.
LangChain cũng cung cấp Deep Agents – một bộ khung sườn (harness) cho agent lập trình được xây dựng trên LangGraph, với khả năng lập kế hoạch, công cụ hệ thống tệp, các sub-agent và nén ngữ cảnh, nếu bạn muốn bỏ qua việc tự viết đồ thị.
Việc kết hợp LangGraph với các sản phẩm khác như LangSmith Engine, LangChain, Deep Agents mang đến cho các nhà phát triển một bộ công cụ đầy đủ để xây dựng agent, đồng thời cực kỳ hữu ích cho việc gỡ lỗi.
Nếu bạn cảm thấy bối rối, đây là sự khác biệt đơn giản:
- LangChain – Các agent thông qua chuỗi (chains) và
create_agent. Đơn giản, nhanh chóng để bắt đầu, ít kiểm soát hơn đối với trạng thái. Đây là nền tảng mà mọi thứ khác được xây dựng. Nếu quá trình chết, agent sẽ bắt đầu lại. - LangGraph – Runtime đồ thị có trạng thái được xây dựng trên LangChain. Bạn có thể phát lại từ bất kỳ điểm kiểm tra nào để gỡ lỗi khi có sự cố.
- Deep Agents – Khung sườn (harness) được xây dựng trên LangGraph, cung cấp các tính năng nâng cao hơn.
Với 32.3k sao trên GitHub, LangGraph là một công cụ đáng tin cậy.

Các Lựa Chọn Thay Thế
- Agno – Hỗ trợ nhẹ cho các agent cần bộ nhớ bền vững và đầu vào đa phương thức. Đi kèm với AgentOS, một máy chủ FastAPI được xây dựng sẵn với các phiên, streaming, RBAC và khả năng quan sát. Tuyên bố khởi tạo nhanh hơn LangGraph 529 lần.
- Mastra – TypeScript-first với RAG, khả năng quan sát, MCP và quy trình làm việc tích hợp. Lựa chọn tốt nếu nhóm của bạn chủ yếu làm việc với JS/TS thay vì Python.
- Pydantic AI – Framework agent an toàn kiểu (type-safe) từ đội ngũ Pydantic. Lựa chọn khi bạn muốn đầu ra có cấu trúc đã được xác thực mà không cần tự viết bộ kiểm định.
- Google ADK – Bộ công cụ phát triển agent chính thức của Google với tích hợp Vertex AI gốc. Lựa chọn nếu bạn đang xây dựng trên Google Cloud.
- PocketFlow – Một framework LLM chỉ với 100 dòng code. Thực sự tối giản. Lựa chọn khi LangGraph có vẻ quá phức tạp.
5. Khung Sườn Agent Lập Trình (Coding Agent Harness) – Deep Agents
Một “harness” (khung sườn) là tất cả những gì bao quanh mô hình để biến nó thành một agent – các công cụ, trạng thái, lập kế hoạch, bộ nhớ, vòng lặp phản hồi và các biện pháp bảo vệ (guardrails). Có thể nói: “Agent = Model + Harness”. LangChain đã chứng minh rằng điều này quan trọng hơn hầu hết các nhóm dự kiến: chỉ riêng các thay đổi ở tầng harness đã giúp cùng một mô hình tăng từ 52.8% lên 66.5% trên Terminal Bench 2.0, nhảy vọt từ Top 30 lên Top 5, mà không cần thay đổi mô hình nào.
Deep Agents là khung sườn “pin-kèm” của LangChain, được xây dựng trên LangGraph. Nó cung cấp khả năng lập kế hoạch, công cụ hệ thống tệp, các sub-agent và nén ngữ cảnh ngay từ đầu.
Mục tiêu của người dùng
↓
Deep Agent (LangGraph StateGraph)
├─ Kế hoạch: write_todos → cập nhật "todos" trong trạng thái
├─ Ủy quyền: task(...) → chạy một subagent với vòng lặp công cụ riêng
├─ Ngữ cảnh: ls/read_file/write_file/edit_file → lưu trữ ghi chú/tài liệu làm việc
↓
Kết quả cuối cùng
Vấn đề cốt lõi với các agent chạy dài là chúng tích lũy kết quả gọi công cụ cho đến khi cửa sổ ngữ cảnh đầy – gây ra “context poisoning” (ngộ độc ngữ cảnh), mất tập trung và nhầm lẫn. Giải pháp của Deep Agents bao gồm:
- Đầu ra công cụ lớn được đưa vào một hệ thống tệp ảo thay vì prompt.
- Các kỹ năng chỉ tải phần frontmatter khi khởi động, nội dung đầy đủ theo yêu cầu.
- Lịch sử hội thoại được nén khi các phiên tăng lên.
- Các sub-agent chạy trong cửa sổ ngữ cảnh riêng, agent chính chỉ nhận được kết quả cuối cùng.
Bạn có thể xây dựng nhiều thứ xung quanh điều này, như Deep Research Assistant.

Deep Agents có 23.1k sao trên GitHub, cho thấy sự quan tâm và tin cậy của cộng đồng.
Các Lựa Chọn Thay Thế
- Hive – Framework phát triển agent hướng đến kết quả. Các agent phát triển dựa trên việc chúng có thực sự đạt được mục tiêu hay không, chứ không chỉ dựa vào việc hoàn thành các bước.
- Browser Harness – Từ đội ngũ Browser Use. Khung sườn tự phục hồi mang lại cho LLM sự tự do tối đa – thay vì gói Chrome bằng hàng ngàn dòng heuristic, nó cho phép LLM sử dụng CDP trực tiếp và thêm các công cụ của riêng nó khi cần. Triết lý khác biệt so với hầu hết các framework trình duyệt.
- Archon – Công cụ xây dựng khung sườn mã nguồn mở cho lập trình AI. Mô tả những gì bạn muốn và nó sẽ tạo ra một khung sườn agent xác định, có thể lặp lại cho bạn.
6. Agent Lập Trình Mã Nguồn Mở (Open-Source Coding Agents) – OpenCode
Tôi đã sử dụng Claude Code và Codex rất nhiều, cả hai đều tuyệt vời nhưng bị khóa vào hệ sinh thái riêng của chúng. OpenCode là một giải pháp thay thế mã nguồn mở – hoạt động trên terminal, hỗ trợ hơn 75 nhà cung cấp, tích hợp LSP, đa phiên (chạy nhiều agent song song trên cùng một dự án) và ưu tiên quyền riêng tư.
Điều làm cho OpenCode nổi bật là khả năng hoàn toàn độc lập với nhà cung cấp ngay từ đầu. Bạn có thể chuyển đổi giữa Claude, Gemini, GPT-5 và các mô hình cục bộ trong cùng một phiên mà không cần cấu hình lại bất cứ điều gì. Hầu hết các agent lập trình khác đều có một mô hình ưu tiên được thiết lập mặc định. Bạn cũng có thể chia sẻ liên kết đến bất kỳ phiên nào để tham khảo hoặc gỡ lỗi. OpenCode có sẵn dưới dạng giao diện terminal, ứng dụng desktop và tiện ích mở rộng IDE – mặc dù tôi chỉ mới sử dụng giao diện terminal.
Với 162k sao trên GitHub, OpenCode là một dự án nhận được sự quan tâm rất lớn từ cộng đồng.

Các Lựa Chọn Thay Thế
- Codex (OpenAI) – Agent lập trình terminal chính thức của OpenAI. Lựa chọn nếu bạn muốn hỗ trợ từ bên thứ nhất và tích hợp GPT-5 sạch nhất.
- Gemini CLI – Agent terminal chính thức của Google với ngữ cảnh 1 triệu token. Gói miễn phí khó có thể bị đánh bại cho việc thử nghiệm.
- Cline – Tiện ích mở rộng VS Code với phê duyệt từng bước. Lựa chọn nếu bạn muốn kiểm soát tích hợp trong IDE thay vì terminal.
- Aider – Lập trình viên cặp đôi terminal thân thiện với Git. Hơn 70% mã của Aider hiện được viết bởi chính Aider. Nhanh chóng và độc lập với mô hình.
- OpenHands – Môi trường phát triển agentic đầy đủ có thể duyệt, chạy shell và commit PRs. Nặng hơn các lựa chọn khác.
- Goose – Agent lập trình mở rộng của Block với MCP hạng nhất và mô hình mở rộng sạch.
7. Tự Động Hóa Trình Duyệt (Browser Automation) – Browser Use
Browser Use trang bị cho agent của bạn một trình duyệt. Chỉ cần trỏ nó vào một URL, mô tả những gì bạn muốn làm, và nó sẽ tự động nhấp, gõ và điều hướng. Bạn viết ý định, không phải bộ chọn (selectors) – agent đọc DOM và tự tìm ra cách tương tác. Thiết kế ưu tiên LLM này có nghĩa là bạn mô tả ý định, không phải bộ chọn, và agent tự tìm ra cách điều khiển DOM một cách thông minh.
Lý do Browser Use rất tốt là vì họ đã xây dựng các LLM chuyên dụng cho các tác vụ trình duyệt. Mô hình bu-ultra của họ đạt 97% trên Mind2Web so với 62% của claude-opus-4-6. Điều này cho thấy khả năng vượt trội trong việc hiểu và tương tác với giao diện web.

Thư viện mã nguồn mở này hoạt động với bất kỳ mô hình nào, nhưng các mô hình tùy chỉnh của họ là những gì được sử dụng để chạy các điểm chuẩn. Họ cũng có một ứng dụng desktop điều khiển trực tiếp Chrome cục bộ của bạn và Browser Use Box – một agent Claude Code hoạt động 24/7 mà bạn có thể triển khai trên bất kỳ VPS nào chỉ với 5 đô la và điều khiển qua Telegram.
# pip install browser-use-sdk
from browser_use_sdk.v3 import AsyncBrowserUse
client = AsyncBrowserUse()
result = await client.run(
"Go to amazon.com, extract 200 products with name, price and reviews, save to products.csv"
)
Với 94k sao trên GitHub, Browser Use là một công cụ mạnh mẽ và phổ biến cho tự động hóa trình duyệt.
Các Lựa Chọn Thay Thế
- Stagehand – Bốn nguyên tắc cơ bản:
act,extract,observe,agent. Kiểm soát từng bước xác định khi bạn cần, thực thi tự động khi không cần. Tự phục hồi – “nhấp gửi” vẫn hoạt động sau khi trang web thay đổi thiết kế vì nó được AI giải quyết trong thời gian chạy, không phải bộ chọn mã hóa cứng. - Playwright MCP – Máy chủ MCP của Microsoft gói Playwright. Lựa chọn nếu bạn đã viết các bài kiểm thử Playwright và muốn agent của bạn điều khiển cùng trình duyệt đó.
- Skyvern – Sử dụng một đội ngũ agent + thị giác máy tính để hoạt động trên các trang web chưa từng thấy trước đây. Không XPaths, không bộ chọn – ánh xạ các phần tử trực quan thành hành động trong thời gian thực. Cũng cung cấp một công cụ xây dựng quy trình làm việc không code.
- Scrapling – Scraper thích ứng có thể tồn tại khi bộ chọn thay đổi. Bỏ qua các hệ thống chống bot như Cloudflare Turnstile ngay từ đầu. Cho phép thu thập dữ liệu đồng thời, đa phiên với tính năng xoay proxy tự động.
8. Thu Thập & Xử Lý Dữ Liệu Web (Web Scraping & Ingestion) – Firecrawl
Các AI Agent liên tục cần kéo nội dung từ web để nghiên cứu, giám sát, thu thập thông tin cạnh tranh, và xây dựng các pipeline RAG. Tuy nhiên, hầu hết các scraper truyền thống cung cấp HTML thô với rất nhiều menu điều hướng, quảng cáo và banner cookie, gây lãng phí token và làm bối rối mô hình.
Firecrawl giải quyết vấn đề này bằng cách chuyển đổi bất kỳ trang web nào thành Markdown sạch sẵn sàng cho LLM hoặc JSON có cấu trúc. Nó cung cấp ba endpoint cốt lõi bao quát mọi thứ:
/searchđể tìm kiếm web với nội dung đã được trích xuất./scrapeđể lấy toàn bộ trang dưới dạng Markdown./extractđể trích xuất JSON có cấu trúc thông qua prompt ngôn ngữ tự nhiên.
Firecrawl còn có một endpoint /agent, nơi bạn mô tả những gì bạn muốn bằng ngôn ngữ tự nhiên và nó sẽ tự động tìm kiếm, điều hướng và trích xuất thông tin trên nhiều trang web mà không cần cung cấp URL.
import Firecrawl from '@mendable/firecrawl-js';
import { z } from 'zod';
const firecrawl = new Firecrawl({
apiKey: 'fc-YOUR-API-KEY'
});
const schema = z.object({
companies: z.array(z.object({
name: z.string(),
founders: z.array(z.string()),
funding: z.string().optional(),
website: z.string()
}))
});
const result = await firecrawl.agent({
prompt: 'Get all YC W24 companies',
schema: schema
});

Agent điều hướng FIRE-1 (beta) của họ có thể tự động điều hướng các trang web phức tạp, nhấp, cuộn, điền biểu mẫu và xử lý các luồng nhiều bước trước khi trích xuất dữ liệu. Các trang web yêu cầu đăng nhập hoặc phân trang không còn là trở ngại. Có rất nhiều điều thú vị khác để khám phá. Firecrawl đã đạt 122k sao trên GitHub.
Các Lựa Chọn Thay Thế
- Gitingest – Thay thế ‘hub’ bằng ‘ingest’ trong bất kỳ URL GitHub nào và bạn sẽ nhận được một bản trích xuất thân thiện với prompt của codebase. Lọc theo kích thước tệp, bao gồm/loại trừ các đường dẫn cụ thể, và hỗ trợ cả các kho lưu trữ riêng tư.
- Crawl4AI – Mã nguồn mở, tự host, không cần API key. Được xây dựng đặc biệt cho các pipeline RAG – phân đoạn nhận biết LLM, lọc nội dung BM25, thu thập dữ liệu toàn trang với kiểm soát độ sâu. Lựa chọn khi bạn muốn kiểm soát hoàn toàn mà không cần phí theo yêu cầu.
- Jina Reader – Thêm
r.jina.ai/vào bất kỳ URL nào và nhận Markdown sạch. Không cần thiết lập, không cần SDK. Lựa chọn cho việc chuyển đổi trang một lần nhanh chóng hoặc tạo mẫu, nơi bạn không muốn bất kỳ cấu hình nào. - ScrapeGraphAI – Thu thập dữ liệu dựa trên prompt. Mô tả những gì bạn muốn trích xuất bằng ngôn ngữ tự nhiên và nó sẽ xây dựng quy trình thu thập dữ liệu. Lựa chọn khi bạn cần trích xuất JSON có cấu trúc, không chỉ Markdown.
9. Framework Đa Agent (Multi-Agent Frameworks) – CrewAI
CrewAI hiện là framework đa agent được áp dụng rộng rãi nhất. Bạn định nghĩa một “crew” (đội) các agent với các vai trò, mục tiêu và công cụ cụ thể, và CrewAI sẽ xử lý cách chúng cộng tác để hoàn thành một nhiệm vụ. Mô hình dựa trên vai trò (Quản lý dự án, Nhà nghiên cứu, Kỹ sư) trực quan vì nó ánh xạ cách bạn thực sự phân chia công việc giữa con người.
Đây là điểm khởi đầu dễ nhất vào các hệ thống đa agent. Được tài liệu hóa tốt, cộng đồng lớn, với các ví dụ cho hầu hết mọi thứ. Tuy nhiên, có một sự đánh đổi về quyền kiểm soát – giao tiếp giữa các agent được điều phối thông qua đầu ra nhiệm vụ, không phải tin nhắn trực tiếp, và không có tính năng checkpointing tích hợp cho các quy trình làm việc chạy dài. CrewAI Flows (chế độ điều khiển bằng sự kiện mới hơn) giải quyết một phần vấn đề này cho các pipeline có thể dự đoán được. Đối với các quy trình làm việc theo chu kỳ có vòng lặp phản hồi, hầu hết các nhóm cuối cùng sẽ chuyển một phần sang LangGraph.
Với 51.6k sao trên GitHub, CrewAI là một lựa chọn mạnh mẽ cho các hệ thống đa agent.

Các Lựa Chọn Thay Thế
- AG2 – Phiên bản cộng đồng của AutoGen (Microsoft đã chuyển AutoGen sang chế độ bảo trì). Các agent có thể trò chuyện với nhau trong các nhóm chat, swarms và chat lồng nhau. Tốt hơn cho nghiên cứu và các mẫu giao tiếp tùy chỉnh.
- Microsoft Agent Framework – Kế thừa doanh nghiệp của AutoGen. API ổn định, hỗ trợ dài hạn, A2A và MCP tích hợp. Lựa chọn khi bạn cần đảm bảo hỗ trợ dài hạn.
- OWL – Framework tự động hóa đa agent được xây dựng trên CAMEL. Sử dụng mô hình agent lập kế hoạch + agent thực thi cho các nhiệm vụ thực tế có tầm nhìn dài hạn. Xếp hạng số 1 trên benchmark GAIA trong số các framework mã nguồn mở.
- MetaGPT – Mô phỏng một công ty phần mềm với các agent PM, kiến trúc sư và kỹ sư. Tốt nhất cho các pipeline tạo mã.
- AgentScope – Framework sản xuất của Alibaba với giọng nói thời gian thực, MCP, A2A và OTel tích hợp.
10. Xử Lý Tài Liệu (Document Processing) – Docling
Việc đưa một tệp PDF cho agent và sau đó chứng kiến nó bỏ lỡ những thông tin ngay trên bảng là điều vô cùng khó chịu. Hầu hết các trình phân tích cú pháp chỉ trích xuất văn bản thô và làm mất cấu trúc – các bảng bị làm phẳng, các bố cục nhiều cột bị sụp đổ, và các công thức toán học trở nên khó đọc. Điều này làm giảm đáng kể độ chính xác của các ứng dụng RAG (Retrieval-Augmented Generation).
Docling là công cụ chuyển đổi tài liệu của IBM Research, hiện đã được quyên góp cho Linux Foundation. Nó sử dụng Granite-Docling-258M – một mô hình ngôn ngữ-thị giác (vision-language model) được xây dựng chuyên biệt cho việc chuyển đổi tài liệu, với hiệu suất cạnh tranh với các hệ thống lớn hơn nhiều lần.
Điểm đặc biệt của Docling là đầu ra của nó sử dụng **DocTags**, một định dạng đánh dấu phổ quát do IBM Research phát triển, có khả năng nắm bắt mọi yếu tố trang, loại, vị trí và thứ tự đọc. Không chỉ là Markdown đơn thuần, DocTags giúp giữ lại cấu trúc ngữ nghĩa của tài liệu, từ đó làm cho quá trình RAG trở nên chính xác hơn rất nhiều. Red Hat đã gọi đây là “kho lưu trữ mã nguồn mở số một về thông minh tài liệu”.
from docling.document_converter import DocumentConverter
source = "https://arxiv.org/pdf/2408.09869" # đường dẫn tệp hoặc URL
converter = DocumentConverter()
doc = converter.convert(source).document
print(doc.export_to_markdown()) # output: "### Docling Technical Report[...]"
Với 60.1k sao trên GitHub, Docling là một công cụ mạnh mẽ và đáng tin cậy cho việc xử lý tài liệu.
Các Lựa Chọn Thay Thế
- LlamaIndex – Framework RAG đầy đủ với hơn 160 trình kết nối dữ liệu. Lựa chọn khi bạn cần điều phối trên nhiều nguồn dữ liệu, không chỉ phân tích tài liệu.
- MinerU – Trình phân tích cú pháp PDF với khả năng trích xuất bảng và công thức SOTA (State-of-the-Art). Lựa chọn cho các tài liệu kỹ thuật hoặc khoa học, nơi toán học và phương trình chiếm ưu thế.
- RAGFlow – Pipeline DeepDoc xử lý việc phân tích cú pháp, phân đoạn và truy xuất end-to-end. Lựa chọn khi bạn muốn một stack RAG đầy đủ, không chỉ là trình phân tích cú pháp.
- Marker – Chuyển đổi PDF, EPUB, PPTX sang Markdown với độ trung thực cao. Nhanh hơn Docling, yêu cầu GPU thấp hơn. Lựa chọn cho đầu ra văn bản thuần túy sạch ở quy mô lớn.
- PaddleOCR – Công cụ OCR cung cấp năng lượng cho MinerU, RAGFlow và OmniParser. Hơn 100 ngôn ngữ, SDK trình duyệt. Lựa chọn khi bạn cần sức mạnh OCR thô trực tiếp.
- Unstructured – Hơn 65 định dạng tệp bao gồm email, bảng tính và hình ảnh. Lựa chọn cho các pipeline đầu vào hỗn hợp ngoài PDF.
11. Agent Giọng Nói (Voice Agents) – Pipecat
Xây dựng các agent giọng nói vẫn còn khó hơn mức cần thiết. Phần AI theo ý kiến của tôi đã được giải quyết phần lớn. Phần khó là mọi thứ xung quanh nó, như xử lý gián đoạn, truyền tải, ngân sách độ trễ giữa các ranh giới STT/LLM/TTS. Đây là những thách thức kỹ thuật lớn trong việc tạo ra trải nghiệm người dùng mượt mà và tự nhiên.
Pipecat là một framework Python từ Daily cho các agent AI giọng nói và đa phương thức thời gian thực. STT (Speech-to-Text), LLM (Large Language Model) và TTS (Text-to-Speech) là các bộ xử lý khung có thể kết hợp như Unix pipes, nhưng dành cho giọng nói. Lý do tôi chọn nó: bạn có thể hoán đổi bất kỳ STT, LLM hoặc TTS nào mà không cần viết lại pipeline. Hầu hết các nhà phát triển không muốn bị khóa vào một nhà cung cấp, đặc biệt là khi chất lượng mô hình giọng nói vẫn đang thay đổi nhanh chóng.
Silero VAD (phát hiện hoạt động giọng nói) xử lý gián đoạn ở cấp độ framework – hoạt động giọng nói giữa phản hồi sẽ dừng âm thanh và tự động kích hoạt lại LLM. Pipecat Flows sau đó thêm các đường dẫn hội thoại được xác định trước với chuyển đổi động để các agent giữ đúng nhiệm vụ mà không đi chệch kịch bản giữa cuộc gọi.
import {
PipecatAppBase,
ConnectButton,
UserAudioControl,
} from "@pipecat-ai/voice-ui-kit";
<PipecatAppBase
transportType="smallwebrtc"
connectParams={{ webrtcUrl: "/api/offer" }}
>
<div>
<ConnectButton />
<UserAudioControl />
</div>
</PipecatAppBase>
Bạn có thể truy cập trang web của họ và dùng thử trực tiếp. Như bạn thấy, tôi đã hỏi “How can I bring it to my app” và nó đã mở bảng mã cũng như đưa ra một lời giải thích phù hợp.

Có nhiều bảng mã (cài đặt, pipeline, triển khai cuối cùng). Phần làm tôi ngạc nhiên là nó có thể phát hiện ra rằng tôi đã thử nghiệm với mã khi tôi dừng nó, điều này khiến nó nhận biết ngữ cảnh của ứng dụng. Điều này chứng tỏ khả năng tích hợp sâu và thông minh của Pipecat.

Pipecat đã có 12k sao trên GitHub, minh chứng cho sự quan tâm của cộng đồng.
Một ngày nọ, tôi tham gia một dự án mà agent sẽ tạo một biểu mẫu phù hợp dựa trên cuộc gọi và nó đã hoạt động. Nói chung, rất khó để thu thập dữ liệu chỉ từ giọng nói. Nhưng với Pipecat, khả năng này trở nên hiện thực.

Các Lựa Chọn Thay Thế
- LiveKit Agents – Stack WebRTC mà OpenAI (ChatGPT Voice) và Meta đang sử dụng. Ưu tiên phòng họp (room-first), không phải pipeline-first – agent của bạn tham gia như một người tham gia. Hỗ trợ điện thoại gốc, phát hiện lượt nói ngữ nghĩa, hỗ trợ MCP. Lựa chọn khi bạn cần cơ sở hạ tầng sản xuất đi kèm với framework.
- fish-speech – TTS mã nguồn mở SOTA với khả năng sao chép giọng nói đa ngôn ngữ zero-shot. Lựa chọn khi chất lượng đầu ra quan trọng hơn điều phối.
- Moonshine – STT trên thiết bị có độ trễ rất thấp. Lựa chọn khi độ trễ là hạn chế và đám mây không phải là một lựa chọn.
- Whisper – Mô hình STT của OpenAI. Lớp chuyển đổi giọng nói mặc định cho các stack giọng nói tùy chỉnh.
- GPT-SoVITS – Sao chép giọng nói few-shot từ 1 phút âm thanh, zero-shot từ 5 giây. Hỗ trợ tiếng Trung, Anh, Nhật, Hàn. Lựa chọn cho TTS giọng nói nhân bản với dữ liệu đào tạo tối thiểu.
- CosyVoice – Tạo giọng nói đa ngôn ngữ zero-shot của Alibaba với độ trễ 150ms. Lựa chọn cho chất lượng giọng nói không phải tiếng Anh.
12. Công Cụ Xây Dựng Trực Quan (Visual Builders) – Langflow
Langflow là một công cụ xây dựng pipeline agent theo kiểu kéo và thả, được hỗ trợ bởi IBM. Nó có khả năng kết nối với bất kỳ LLM nào, bất kỳ cơ sở dữ liệu vector nào, và bất kỳ công cụ nào. Giám đốc Công nghệ (CTO) của Langflow đã mô tả nó một cách ngắn gọn: “Langflow về cơ bản là một nhà thiết kế API. Luồng trở thành một endpoint mà bạn có thể gọi từ bất cứ đâu.”
Điều làm cho Langflow trở nên thú vị là khả năng biến một luồng (flow) thành một endpoint REST có thể gọi được. Bạn có thể tạo mẫu trực quan một cách nhanh chóng, sau đó các kỹ sư của bạn có thể gọi nó như một API từ bất kỳ codebase nào. Mỗi thành phần đều hiển thị lớp Python của nó, cho phép bạn mở rộng bằng logic tùy chỉnh mà không cần rời khỏi công cụ.
Bạn có thể tìm thấy rất nhiều mẫu được xây dựng sẵn để bắt đầu. Ví dụ, một quy trình giám sát rủi ro chuỗi cung ứng có thể đánh giá rủi ro gián đoạn bằng cách liên kết dữ liệu nhà cung cấp và tuyến đường với các tín hiệu tin tức trực tiếp.

Với 149k sao trên GitHub, Langflow là một dự án lớn và được cộng đồng đón nhận nồng nhiệt.
Các Lựa Chọn Thay Thế
- Dify – Nền tảng ứng dụng LLM với công cụ xây dựng agent trực quan, pipeline RAG và marketplace plugin. Lựa chọn giao diện người dùng bóng bẩy hơn và vỏ ứng dụng tích hợp.
- Sim – Điều phối agent kéo và thả, được phát triển rất tích cực. Lựa chọn thay thế Langflow tiên tiến nhất vào năm 2026.
- n8n – Tự động hóa quy trình làm việc với hơn 400 tích hợp và các nút AI mạnh mẽ. Lựa chọn khi quy trình làm việc chủ yếu là tự động hóa đa dịch vụ với agent làm trung tâm.
- Flowise – Công cụ xây dựng LangChain không code đơn giản hơn. Lựa chọn cho người dùng không chuyên về kỹ thuật cần xây dựng quy trình làm việc agent mà không cần viết mã.
- Coze Studio – Nền tảng agent trực quan mã nguồn mở của ByteDance. Công cụ xây dựng agent với RAG và plugin, engine quy trình làm việc với các vòng lặp và thực thi Python tùy chỉnh.
13. Tích Hợp Công Cụ & MCP (MCP & Tool Integration) – Composio
Các máy chủ MCP (Model Context Protocol) đã giải quyết cách các agent kết nối với các công cụ. Tuy nhiên, việc quản lý OAuth, làm mới token và duy trì hơn 1000 tích hợp vẫn là một vấn đề lớn. Điều này đòi hỏi công sức đáng kể và thường gặp phải nhiều thách thức về bảo mật và khả năng mở rộng.
Composio là lớp tích hợp giữa agent của bạn và các công cụ trong thế giới thực với khả năng quản lý xác thực. Phần tôi thích nhất là Tool Router – một endpoint MCP duy nhất có thể động khám phá và tải các công cụ phù hợp dựa trên những gì agent đang cố gắng thực hiện. Thay vì tải trước mọi công cụ và làm phình to ngữ cảnh, nó chỉ hiển thị những gì liên quan, giúp tối ưu hóa hiệu suất và giảm thiểu chi phí token.

Với 28.4k sao trên GitHub, Composio là một giải pháp tích hợp công cụ đáng tin cậy.
Các Lựa Chọn Thay Thế
- LiteLLM – Một API thống nhất trên hơn 100 nhà cung cấp LLM. Azure, Bedrock, Anthropic đều trông giống OpenAI đối với mã của bạn. Bao gồm theo dõi chi phí, định tuyến, dự phòng. Lựa chọn lớp cổng mô hình.
- MindsDB – Truy cập SQL vào hơn 200 nguồn dữ liệu từ một giao diện duy nhất, không cần ETL. Cũng hoạt động như một máy chủ MCP. Lựa chọn khi agent của bạn cần đọc dữ liệu, không thực hiện hành động.
- ACI – Hơn 600 tích hợp công cụ thông qua một máy chủ MCP thống nhất. Một lựa chọn thay thế Composio tự host.
- Portkey AI Gateway – Hơn 1.600 mô hình với các biện pháp bảo vệ tích hợp. Lựa chọn khi độ trễ cổng là quan trọng.
14. Môi Trường Sandbox & Thực Thi Code (Sandboxing & Code Execution) – E2B
Khi một agent tạo và chạy mã, mã đó cần một nơi an toàn để thực thi. Các container Docker thông thường chia sẻ kernel máy chủ – một lỗ hổng có thể khiến mã không đáng tin cậy thoát ra ngoài. E2B cung cấp các sandbox được cô lập cho phép các agent thực thi mã an toàn, xử lý dữ liệu và chạy các công cụ. SDK của họ giúp dễ dàng khởi tạo và quản lý các môi trường này.
E2B chạy mã do agent tạo trong các microVM Firecracker – mỗi sandbox có kernel riêng. Thời gian khởi động khoảng 150ms, hệ thống tệp Linux đầy đủ, Python, Node và các gói phổ biến được cài đặt sẵn. Điều này đảm bảo rằng không có gì chạm vào máy chủ thực, cung cấp một lớp bảo mật mạnh mẽ.
import { Sandbox } from 'e2b'
const sandbox = await Sandbox.create() // Cần biến môi trường E2B_API_KEY
const result = await sandbox.commands.run('echo "Hello from E2B Sandbox!"')
console.log(result.stdout)
Manus sử dụng E2B để chạy 27 công cụ khác nhau. Perplexity sử dụng nó để phân tích dữ liệu. Hugging Face sử dụng nó để tái tạo DeepSeek-R1. Bạn có thể kiểm tra một số ví dụ trong kho lưu trữ cookbook của họ về cách sử dụng tất cả những điều này.

Với 12k sao trên GitHub, E2B là một công cụ quan trọng cho việc thực thi mã an toàn.
Các Lựa Chọn Thay Thế
- OpenSandbox – Cơ sở hạ tầng sandbox nội bộ của Alibaba. Bao gồm các agent lập trình, agent GUI, tự động hóa trình duyệt, desktop VNC và đào tạo RL từ một API duy nhất. Runtime Docker và Kubernetes. Phạm vi rộng hơn E2B.
- Daytona – Khởi động ~90ms, mã nguồn mở, môi trường bền vững với tích hợp Git và LSP. Lựa chọn khi bạn cần một trạng thái tồn tại qua các phiên.
- microsandbox – Sandbox cục bộ, có thể lập trình. Lựa chọn khi bạn muốn sandbox trên máy phát triển mà không phụ thuộc vào đám mây.
- Firecracker – Công nghệ microVM dưới E2B, Lambda và Fargate. Lựa chọn khi bạn cần lớp thô với quyền kiểm soát hoàn toàn.
15. Bộ Nhớ Agent (Agent Memory) – mem0
Bộ nhớ là nơi mà hầu hết các bản demo agent thất bại trong môi trường sản xuất. Agent biết một số thứ trong một phiên nhưng lại quên chúng trong phiên tiếp theo. Chúng ta thực sự không muốn các agent “chết” sau khi đóng tab! Đây là một thách thức lớn trong việc xây dựng các AI Agent có khả năng học hỏi và duy trì ngữ cảnh dài hạn.
mem0 hiện là lớp bộ nhớ độc lập được triển khai rộng rãi nhất. Thay vì lưu trữ các đoạn hội thoại thô, nó chạy một giai đoạn trích xuất để xác định các sự kiện nổi bật và chắt lọc chúng thành những ký ức ngôn ngữ tự nhiên nhỏ gọn. Mem0 xử lý bộ nhớ ngắn hạn, dài hạn và bộ nhớ thực thể (entity memory) thông qua một giao diện duy nhất.
# Thêm một ký ức
messages = [
{"role": "user", "content": "I'm a vegetarian and allergic to nuts."},
{"role": "assistant", "content": "Got it! I'll remember your dietary preferences."},
]
client.add(messages, user_id="user123")
# Tìm kiếm ký ức
results = client.search(
"What are my dietary restrictions?",
user_id="user123",
)
# print(results)
Hầu hết các framework lớn đang xây dựng bộ nhớ theo cách mà LangGraph có tính năng checkpointing tích hợp (trạng thái tồn tại trên mỗi luồng, “time travel”, phục hồi sau sự cố) và CopilotKit có các luồng bền vững thông qua useThreads. Tuy nhiên, một khoảng cách đáng chú ý là Mem0 đạt 49% trên LongMemEval so với 63.8% của Zep – sự khác biệt đến từ khả năng suy luận thời gian. Đối với bộ nhớ cá nhân hóa, Mem0 là lựa chọn thực dụng. Đối với các agent cần suy luận về cách các sự kiện thay đổi theo thời gian, Graphiti là lựa chọn tốt hơn.
Với 55k sao trên GitHub, Mem0 là một công cụ bộ nhớ agent rất phổ biến.
Các Lựa Chọn Thay Thế
- Graphiti – Engine biểu đồ tri thức thời gian của Zep. Lưu trữ các sự kiện với các cửa sổ hiệu lực – không chỉ những gì đã xảy ra, mà còn khi nào và liệu nó có còn đúng hay không.
- Letta (trước đây là MemGPT) – Bộ nhớ được tích hợp vào system prompt trong thời gian chạy. Bản thân agent quyết định những gì cần giữ – không được truy xuất sau đó, mà được tích hợp vào cách nó suy luận.
- Supermemory – API bộ nhớ đa agent với các plugin cho OpenCode, OpenClaw và Claude Code. Nói “nhớ rằng dự án này sử dụng Bun” và nó sẽ lưu lại. Ngữ cảnh sẽ tự động hiển thị trong phiên tiếp theo.
- Cognee – Các pipeline bộ nhớ biểu đồ tri thức xác định. Lựa chọn cho bộ nhớ có cấu trúc trên các tập dữ liệu lớn.
16. Kiểm Thử & Đánh Giá (Testing & Evaluation) – DeepEval
Hầu hết các nhóm thường bỏ qua việc đánh giá (evaluations) cho đến khi có sự cố xảy ra trong sản xuất. Đến lúc đó, bạn đang gỡ lỗi trong một “hộp đen” – không có dấu vết về những gì agent đã làm, theo thứ tự nào, hay nó đã sai ở đâu. Điều này dẫn đến quá trình gỡ lỗi tốn thời gian và kém hiệu quả.
DeepEval mang việc đánh giá vào bộ kiểm thử của bạn. Viết các khẳng định (assertions) giống như cách bạn viết các unit test, chạy chúng trong CI (Continuous Integration), và bắt kịp các lỗi hồi quy trước khi chúng được triển khai. Nó cung cấp hơn 50 chỉ số bao gồm RAG, agent, sử dụng công cụ, hội thoại đa lượt và an toàn. Các chỉ số dành riêng cho agent là hữu ích nhất: hoàn thành nhiệm vụ, tính đúng đắn của đối số, tính đúng đắn của công cụ, hiệu quả bước. DeepEval cũng tạo ra các tập dữ liệu tổng hợp cho các trường hợp biên khó thu thập thủ công.

Với 15.6k sao trên GitHub, DeepEval là một công cụ quan trọng cho việc đảm bảo chất lượng AI Agent.
Các Lựa Chọn Thay Thế
- promptfoo – Đánh giá và red-teaming (kiểm thử tấn công) ưu tiên CLI trong một công cụ. Lựa chọn khi kiểm thử đối kháng cũng quan trọng như các chỉ số độ chính xác.
- Phoenix – Tracing OTel-native + đánh giá từ Arize AI. Tự động công cụ hóa LangChain, LlamaIndex, Mastra, Vercel AI SDK. Lựa chọn khi bạn đã sử dụng OTel và muốn tracing và đánh giá trong một công cụ.
- Opik – Nền tảng đánh giá và tracing mở của Comet. Lựa chọn khi bạn muốn đánh giá và khả năng quan sát cùng nhau.
- MLflow – Hiện có đầy đủ các tính năng đánh giá LLM và agent cùng với các công cụ vòng đời ML. Lựa chọn khi nhóm của bạn đã chạy MLflow cho ML truyền thống.
- garak – Máy quét lỗ hổng LLM của NVIDIA. Kiểm tra agent của bạn để tìm điểm yếu trước khi người khác làm.
- AI-Infra-Guard – Nền tảng red teaming của Tencent. Quét các máy chủ MCP, kỹ năng agent và cơ sở hạ tầng AI. Lựa chọn khi bạn muốn tìm lỗ hổng trước khi triển khai.
17. Giám Sát & Khả Năng Quan Sát (Monitoring & Observability) – Langfuse
Hầu hết các nhóm thường chỉ phát hiện ra agent của họ bị lỗi khi người dùng báo cáo. Đến lúc đó, bạn đang gỡ lỗi một “hộp đen” – không có dấu vết về những gì agent đã làm, theo thứ tự nào, hay nó đã sai ở đâu. Điều này gây khó khăn rất lớn trong việc xác định nguyên nhân gốc rễ và sửa chữa lỗi một cách hiệu quả.
Langfuse là stack khả năng quan sát LLM mã nguồn mở mặc định. Nó cung cấp các dấu vết (traces), đánh giá (evaluations), quản lý phiên bản prompt và theo dõi chi phí trong một gói có thể tự host. Dấu vết hiển thị chính xác những gì agent đã làm, với độ trễ bao nhiêu và chi phí là bao nhiêu. Việc gỡ lỗi các agent đa bước trở nên dễ dàng hơn rất nhiều, giúp các nhà phát triển nhanh chóng xác định và khắc phục sự cố.

Với 27.6k sao trên GitHub, Langfuse là một công cụ không thể thiếu để đảm bảo hoạt động ổn định và hiệu quả của các AI Agent.
Các Lựa Chọn Thay Thế
- Opik – Tracing, đánh giá và bảng điều khiển của Comet. Lựa chọn tương đương Langfuse với nguồn gốc ML của Comet phía sau.
- TensorZero – Cổng (Gateway), khả năng quan sát và tối ưu hóa hợp nhất trong một công cụ. Lựa chọn khi bạn muốn một giải pháp tất cả trong một thay vì ba công cụ riêng biệt.
- Logfire – Khả năng quan sát LLM OTel-native từ đội ngũ Pydantic. Lựa chọn phù hợp nhất với Python và các agent Pydantic-AI.
- OpenLLMetry – Thư viện công cụ OTel cho các ứng dụng LLM. Lựa chọn khi bạn muốn các dấu vết agent được đưa vào một backend Grafana hoặc Datadog hiện có.
Một Ghi Chú Ngắn Về Các Giao Thức Agent
Ba giao thức chính đang vận hành stack agent hiện đại. Việc hiểu rõ sự khác biệt giữa chúng là rất quan trọng:
- MCP (Model Context Protocol) – Giao tiếp giữa agent và công cụ. Đây là tiêu chuẩn của Anthropic, hiện thuộc về Linux Foundation, và đã được OpenAI, Google và Microsoft áp dụng. GitHub
- A2A (Agent-to-Agent) – Giao tiếp giữa các agent với nhau. Đây là giao thức của Google dành cho giao tiếp liên agent. GitHub
- AG-UI – Giao tiếp giữa agent và người dùng. Giao thức sự kiện mở cho tương tác agent-người dùng, có nguồn gốc từ CopilotKit và hiện được Google, AWS, Microsoft, LangChain và Mastra áp dụng. GitHub
Tài Nguyên Bổ Sung
Để nâng cao kiến thức và kỹ năng xây dựng AI Agent, bạn có thể tham khảo các tài nguyên sau:
- 12-Factor Agents – Các nguyên tắc của Dex Horthy để triển khai phần mềm LLM thực sự hoạt động trong sản xuất. Điểm cốt lõi: hầu hết các sản phẩm AI thành công không phải là các agent tự động hoàn toàn – chúng chủ yếu là mã xác định với các bước LLM được đặt ở đúng điểm. Một trong những kho lưu trữ yêu thích của tôi trong mã nguồn mở.
- Generative Agents – Mã nguồn của bài báo simulacra từ Stanford. 25 agent trong một sandbox giống Sims, chúng thức dậy, hình thành mối quan hệ, lập kế hoạch cho ngày của mình và ghi nhớ các tương tác trong quá khứ. Đây là tài liệu tham khảo kinh điển về cách bộ nhớ, sự phản ánh và lập kế hoạch hoạt động trong các mô phỏng đa agent.
- AI Agents for Beginners (Microsoft) – Khóa học có cấu trúc gồm 12 bài học từ Microsoft. Lựa chọn này nếu bạn muốn một lộ trình có hướng dẫn thay vì tự mình tìm hiểu.
- HuggingFace Agents Course – Tập trung mạnh hơn vào các nguyên tắc cơ bản của mô hình và sử dụng công cụ. Tốt hơn cho các chuyên gia ML chuyển sang lĩnh vực agent từ phía mô hình.
- Roadmap.sh AI Agents – Bản đồ trực quan về mọi thứ bạn cần biết để xây dựng agent vào năm 2026. Điểm khởi đầu tốt nếu bạn muốn có cái nhìn tổng thể trước khi đi sâu vào chi tiết.
Phù! Bài viết này đã tốn khá nhiều thời gian để hoàn thành, nhưng tôi đã tận hưởng từng chút một. Danh sách này dựa trên quan điểm và những gì tôi thực sự thấy được áp dụng trong cộng đồng mã nguồn mở. Nếu tôi bỏ lỡ điều gì đó mà bạn nghĩ xứng đáng có trong danh sách, hãy chia sẻ trong phần bình luận.
Và đây là hình ảnh minh họa về sự hợp tác đa agent thực sự trông như thế nào vào năm 2026 😂

Chúc một ngày tốt lành! Hẹn gặp lại lần sau 🙂
Kết nối với tôi trên GitHub, Twitter và LinkedIn.
Cảm ơn đã đọc!




