AI Engineer Roadmap – Lộ trình học Kỹ sư AI 2025

[Đang cập nhật]

Trí tuệ nhân tạo (AI) đang định hình tương lai của công nghệ, và vai trò kỹ sư AI ngày càng trở nên quan trọng. Để trở thành một kỹ sư AI chuyên nghiệp vào năm 2025, dưới đây là lộ trình học tập chi tiết, bao gồm tất cả các mục được liệt kê trong tài liệu lộ trình Kỹ sư AI.

1. Giới thiệu

  • Kỹ sư AI là gì?: Hiểu vai trò và trách nhiệm của một kỹ sư AI.
  • Kỹ sư AI vs Kỹ sư ML: Phân biệt giữa kỹ sư AI và kỹ sư học máy (Machine Learning).
  • AI vs AGI: Hiểu sự khác biệt giữa trí tuệ nhân tạo (AI) và trí tuệ nhân tạo tổng quát (AGI).
  • Tác động đến phát triển sản phẩm: Vai trò của AI trong quá trình phát triển sản phẩm.
  • Vai trò và trách nhiệm: Các nhiệm vụ chính của một kỹ sư AI.

2. Học các kiến thức cơ bản

  • Sử dụng mô hình được đào tạo sẵn:
    • Lợi ích của mô hình được đào tạo sẵn: Tăng tốc phát triển và giảm chi phí.
    • Hạn chế và cân nhắc: Những thách thức khi sử dụng mô hình có sẵn.
    • Các mô hình AI phổ biến:
      • Mô hình OpenAI:
        • Các mô hình của OpenAI.
        • Khả năng và độ dài ngữ cảnh.
        • Ngày cắt dữ liệu và kiến thức.
      • Claude của Anthropic: Mô hình AI mạnh mẽ từ Anthropic.
      • Gemini của Google: Giải pháp AI từ Google.
      • Azure AI: Dịch vụ AI của Microsoft.
      • AWS Sagemaker: Nền tảng AI/ML của Amazon.
      • Mô hình Hugging Face: Kho mô hình mã nguồn mở.
      • Mistral AI: Mô hình AI hiệu suất cao.
      • Cohere: Dịch vụ AI cho xử lý ngôn ngữ tự nhiên.
      • Replicate: Nền tảng triển khai mô hình AI.

3. Nền tảng Open AI

  • OpenAI API:
    • Chat Completions API: Tạo cuộc hội thoại với mô hình AI.
    • Viết Prompt: Kỹ thuật viết lệnh (prompt) hiệu quả.
    • Số lượng Token tối đa: Hiểu giới hạn token trong API.
    • Đếm Token: Cách tính toán số lượng token.
    • Cân nhắc chi phí: Quản lý chi phí khi sử dụng API.
    • Quản lý Token: Tối ưu hóa việc sử dụng token.
    • Open AI Playground: Công cụ thử nghiệm API.
    • Tinh chỉnh (Fine-tuning): Tùy chỉnh mô hình cho nhu cầu cụ thể.
    • Lộ trình Kỹ thuật Prompt: Tham khảo lộ trình riêng về kỹ thuật prompt.
  • An toàn và đạo đức AI:
    • Tấn công chèn Prompt: Hiểu và phòng chống các cuộc tấn công.
    • Mối quan ngại về bảo mật và quyền riêng tư: Bảo vệ dữ liệu người dùng.
    • Thiên vị và công bằng: Giảm thiểu thiên vị trong mô hình AI.
    • Hiểu các vấn đề an toàn AI: Các rủi ro liên quan đến AI.
    • OpenAI Moderation API: Kiểm duyệt nội dung tự động.
    • Thêm ID người dùng cuối trong Prompt: Tăng cường bảo mật.
    • Thực hiện kiểm thử đối kháng: Đánh giá độ bền của mô hình.
    • Kỹ thuật Prompt mạnh mẽ: Thiết kế prompt an toàn.
    • Hiểu khách hàng và trường hợp sử dụng: Đáp ứng đúng nhu cầu.
    • Ràng buộc đầu ra và đầu vào: Kiểm soát dữ liệu đầu vào/đầu ra.
    • Thực tiễn tốt nhất về an toàn: Áp dụng các phương pháp an toàn.
  • AI mã nguồn mở:
    • Mô hình mã nguồn mở vs đóng: So sánh ưu và nhược điểm.
    • Các mô hình mã nguồn mở phổ biến: Các lựa chọn hàng đầu.
    • Hugging Face:
      • Tìm kiếm mô hình mã nguồn mở.
      • Các tác vụ của Hugging Face.
      • Hugging Face Hub.
      • Sử dụng mô hình mã nguồn mở.
      • Inference SDK.
      • Transformers.js.
    • Ollama:
      • Các mô hình của Ollama.
      • Ollama SDK.
  • Embeddings & Cơ sở dữ liệu Vector:
    • Embeddings là gì?: Hiểu về biểu diễn dữ liệu dạng vector.
    • Tìm kiếm ngữ nghĩa: Tìm kiếm dựa trên ý nghĩa.
    • Phân loại dữ liệu: Ứng dụng embeddings trong phân loại.
    • Hệ thống đề xuất: Xây dựng hệ thống gợi ý nội dung.
    • Phát hiện bất thường: Sử dụng embeddings để phát hiện bất thường.
    • Trường hợp sử dụng Embeddings: Các ứng dụng thực tế.
    • Mô hình Embeddings của Open AI:
      • Cân nhắc chi phí.
      • Open AI Embeddings API.
      • Sentence Transformers.
      • Mô hình trên Hugging Face.
    • Embeddings mã nguồn mở: Các giải pháp thay thế.
    • Cơ sở dữ liệu Vector:
      • Mục đích và chức năng.
      • Các cơ sở dữ liệu Vector phổ biến (chọn một):
        • Chroma
        • Pinecone
        • Weaviate
        • FAISS
        • LanceDB
        • Qdrant
        • Supabase
        • MongoDB Atlas
      • Triển khai tìm kiếm Vector.
      • Lập chỉ mục Embeddings.
      • Thực hiện tìm kiếm tương tự.
  • RAG & Triển khai:
    • Trường hợp sử dụng RAG: Ứng dụng của Retrieval-Augmented Generation.
    • RAG vs Tinh chỉnh: So sánh hai phương pháp.
    • Triển khai RAG:
      • Phân đoạn dữ liệu (Chunking).
      • Tạo Embeddings.
      • Cơ sở dữ liệu Vector.
      • Quy trình truy xuất.
    • Thay thế RAG: Các phương pháp khác.
    • OpenAI Assistant API:
      • Tạo nội dung.
      • Các cách triển khai RAG.
      • Sử dụng SDK trực tiếp.
      • Langchain.
      • Llama Index.
    • Kỹ thuật Prompt: Tối ưu hóa lệnh.
    • ReAct Prompting: Kỹ thuật prompt nâng cao.
  • AI Agents:
    • Xây dựng AI Agents.
    • Triển khai thủ công.
    • OpenAI Functions/Tools.
    • OpenAI Assistant API.
    • Trường hợp sử dụng Agents.
  • AI đa phương thức (Multimodal AI):
    • Trường hợp sử dụng AI đa phương thức:
      • Hiểu hình ảnh.
      • Tạo hình ảnh.
      • Hiểu video.
      • Xử lý âm thanh.
      • Chuyển giọng nói thành văn bản.
    • OpenAI Vision API: Xử lý hình ảnh.
    • DALL-E API: Tạo hình ảnh từ văn bản.
    • Whisper API: Chuyển giọng nói thành văn bản.
    • Mô hình Hugging Face: Hỗ trợ đa phương thức.
    • LangChain cho ứng dụng đa phương thức.
    • LlamaIndex cho ứng dụng đa phương thức.
    • Triển khai AI đa phương thức.
    • Các tác vụ AI đa phương thức.

4. Công cụ phát triển

  • Trình chỉnh sửa mã AI: Các công cụ hỗ trợ viết mã bằng AI.
  • Công cụ hoàn thành mã: Tăng năng suất với các công cụ gợi ý mã.

Lộ trình Kỹ sư AI 2025 này cung cấp một hướng dẫn toàn diện để bạn nắm vững các kỹ năng cần thiết, từ việc sử dụng mô hình AI được đào tạo sẵn đến xây dựng các ứng dụng AI phức tạp. Hãy bắt đầu hành trình của bạn để trở thành một kỹ sư AI chuyên nghiệp ngay hôm nay!

Chỉ mục