AI Engineer Roadmap: Xây dựng Ứng dụng Đa phương thức với LlamaIndex

Chào mừng trở lại với series “AI Engineer Roadmap”! Trong các bài viết trước, chúng ta đã cùng nhau khám phá nhiều khía cạnh quan trọng trên hành trình trở thành một Kỹ sư AI hiện đại. Chúng ta đã tìm hiểu Kỹ sư AI là gì, sự khác biệt giữa Kỹ sư AI và Kỹ sư ML, tầm quan trọng của việc làm việc với các mô hình AI được huấn luyện trước, cách sử dụng OpenAI APIcác mô hình từ Hugging Face. Đặc biệt, chúng ta đã đi sâu vào Retrieval Augmented Generation (RAG) và cách xây dựng pipeline RAG cơ bản, cũng như khái niệm về AI Agents.

Gần đây, chúng ta đã chạm đến một chủ đề cực kỳ hấp dẫn và đang là xu hướng nóng: AI Đa phương thức (Multimodal AI). Chúng ta đã hiểu các trường hợp ứng dụng đa dạng của nó, từ việc hiểu hình ảnh với OpenAI Vision đến xử lý âm thanh với Whisper. Tuy nhiên, việc kết hợp các loại dữ liệu khác nhau (văn bản, hình ảnh, âm thanh, video…) một cách hiệu quả để xây dựng các ứng dụng thực tế vẫn là một thách thức đối với nhiều nhà phát triển.

Đây là lúc các framework như LangChain hay LlamaIndex trở nên vô cùng giá trị. Trong bài viết trước, chúng ta đã so sánh việc triển khai RAG với LangChain hoặc LlamaIndex. Hôm nay, chúng ta sẽ tập trung sâu hơn vào LlamaIndex và khám phá cách framework này giúp chúng ta “thuần hóa” dữ liệu đa phương thức và xây dựng các ứng dụng AI mạnh mẽ, hiểu được thế giới xung quanh không chỉ qua văn bản mà còn qua hình ảnh, và thậm chí là các dạng thức khác.

Nếu bạn đang muốn mở rộng khả năng của các ứng dụng AI của mình vượt ra ngoài chỉ xử lý văn bản, bài viết này sẽ là một hướng dẫn chi tiết dành cho bạn.

AI Đa phương thức và Thách thức Tích hợp Dữ liệu

Như chúng ta đã biết, AI Đa phương thức là khả năng của mô hình AI trong việc xử lý, hiểu và tạo ra nội dung từ nhiều loại dữ liệu (phương thức) khác nhau cùng một lúc. Thay vì chỉ đọc văn bản, một mô hình đa phương thức có thể “nhìn” hình ảnh, “nghe” âm thanh, và kết hợp thông tin từ tất cả các nguồn này để đưa ra phản hồi hoặc hành động.

Tuy nhiên, thế giới thực chứa đầy các loại dữ liệu khác nhau. Tài liệu kinh doanh có thể bao gồm văn bản, biểu đồ (hình ảnh), và bảng biểu. Hồ sơ y tế có thể có báo cáo văn bản, ảnh X-quang (hình ảnh), và ghi âm lời bác sĩ (âm thanh). Xây dựng một hệ thống AI có thể truy cập và sử dụng hiệu quả thông tin từ tất cả các nguồn này đòi hỏi khả năng:

  1. Tải và xử lý các loại dữ liệu đa dạng.
  2. Biểu diễn (embeddings) các loại dữ liệu này theo cách mà mô hình AI có thể hiểu và so sánh được.
  3. Lưu trữ và truy vấn dữ liệu theo cách hiệu quả khi cần.
  4. Kết hợp thông tin được truy vấn từ nhiều phương thức khác nhau để đưa vào mô hình ngôn ngữ lớn (LLM) hoặc mô hình đa phương thức.

Đây chính là lúc các framework quản lý dữ liệu cho LLM như LlamaIndex phát huy vai trò quan trọng của mình.

LlamaIndex: Nền tảng cho Ứng dụng AI với Dữ liệu Tùy chỉnh

LlamaIndex ban đầu được thiết kế để kết nối LLM với dữ liệu riêng (private data) của bạn, chủ yếu là dữ liệu văn bản. Nó cung cấp các công cụ để tải dữ liệu từ nhiều nguồn khác nhau, chia nhỏ (chunking) dữ liệu thành các đơn vị nhỏ hơn (Nodes), tạo embeddings cho các Node này, xây dựng các loại index (như VectorStoreIndex cho tìm kiếm ngữ nghĩa), và sau đó sử dụng các index này để truy vấn và đưa thông tin vào LLM (quá trình RAG).

Với sự phát triển của các mô hình đa phương thức như GPT-4V, Gemini Pro Vision, LlamaIndex đã mở rộng khả năng của mình để hỗ trợ dữ liệu đa phương thức, đặc biệt là sự kết hợp giữa văn bản và hình ảnh. LlamaIndex làm điều này bằng cách:

  • Cung cấp các Data Loader để tải các loại file hình ảnh.
  • Định nghĩa các cấu trúc dữ liệu mới như ImageDocument và cách các Node có thể chứa hoặc tham chiếu đến hình ảnh.
  • Tích hợp với các mô hình embedding hình ảnh (ví dụ: CLIP) hoặc các mô hình embedding đa phương thức để tạo embeddings cho hình ảnh và văn bản trong cùng một không gian vector.
  • Cho phép truy vấn sử dụng cả văn bản và hình ảnh làm đầu vào.
  • Kết hợp thông tin văn bản và hình ảnh được truy xuất để cung cấp cho các LLM đa phương thức xử lý.

Về cơ bản, LlamaIndex mở rộng pipeline RAG truyền thống để xử lý các tài liệu hỗn hợp chứa cả văn bản và hình ảnh, cho phép bạn xây dựng các ứng dụng có thể “hiểu” cả hai.

Các Khái niệm Chính trong LlamaIndex Multimodal

Để xây dựng ứng dụng đa phương thức với LlamaIndex, bạn cần nắm vững một số khái niệm:

1. Documents và Nodes

Trong LlamaIndex, dữ liệu nguồn được biểu diễn dưới dạng Document. Ví dụ, một file PDF, một trang web là một Document. Các Document này sau đó được chia nhỏ thành các đơn vị nhỏ hơn gọi là Node. Các Node là đơn vị chính mà LlamaIndex sẽ xử lý, tạo embeddings và lưu trữ trong index.

Đối với dữ liệu đa phương thức, LlamaIndex giới thiệu các loại Node và cách xử lý đặc biệt:

  • ImageDocument: Đại diện cho một tài liệu gốc là hình ảnh (ví dụ: file .jpg, .png).
  • TextNode với Tham chiếu Hình ảnh: Một TextNode có thể chứa văn bản và đồng thời tham chiếu đến một hình ảnh liên quan (ví dụ: mô tả văn bản của một hình ảnh, hoặc văn bản từ một trang tài liệu có kèm hình ảnh). LlamaIndex có thể trích xuất văn bản từ hình ảnh (OCR) hoặc sử dụng mô tả do người dùng cung cấp.
  • Các Node kết hợp (MultiModal Nodes): LlamaIndex có thể tạo các Node biểu diễn sự kết hợp chặt chẽ hơn giữa văn bản và hình ảnh, cho phép tạo ra các embeddings kết hợp.

2. Data Loaders Đa phương thức

LlamaIndex cung cấp nhiều Data Loader để tải dữ liệu từ các nguồn khác nhau. Đối với đa phương thức, có các loader chuyên biệt cho hình ảnh hoặc các loại tài liệu kết hợp:

  • ImageReader: Tải các file hình ảnh.
  • Các loader tùy chỉnh cho PDF có hình ảnh, các định dạng tài liệu phức tạp.

3. Embedding Models

Embeddings là vector số biểu diễn ngữ nghĩa của dữ liệu. Trong thế giới đa phương thức, chúng ta cần các embedding model có thể hiểu được cả hình ảnh và văn bản, hoặc ít nhất là tạo ra các embeddings cho từng phương thức sao cho chúng có thể so sánh được trong cùng một không gian vector.

  • Mô hình Embedding Đa phương thức: Các mô hình như CLIP (được phát triển bởi OpenAI) hoặc các mô hình embedding tích hợp trong các LLM đa phương thức mới hơn có thể tạo ra embeddings chung cho cả văn bản và hình ảnh.
  • Kết hợp Mô hình Embedding Văn bản và Hình ảnh riêng biệt: Đôi khi, bạn có thể sử dụng một mô hình embedding văn bản riêng (ví dụ: text-embedding-ada-002 của OpenAI, Sentence Transformers) và một mô hình embedding hình ảnh riêng (ví dụ: CLIP). LlamaIndex cung cấp các chiến lược để kết hợp các embeddings này hoặc sử dụng chúng một cách thông minh trong quá trình truy vấn.

4. Index và Query Engine

Sau khi tạo các Node và embeddings, LlamaIndex sẽ xây dựng một index để lưu trữ chúng và cho phép truy vấn hiệu quả. VectorStoreIndex là loại index phổ biến nhất cho RAG, và nó cũng là nền tảng cho RAG đa phương thức.

Truy vấn Đa phương thức: LlamaIndex cho phép bạn tạo ra một QueryEngine có khả năng xử lý các truy vấn (queries) đa phương thức. Nghĩa là, bạn có thể hỏi một câu hỏi bằng văn bản và cung cấp một hình ảnh làm ngữ cảnh, hoặc hỏi một câu hỏi về một tập hợp các hình ảnh và tài liệu văn bản.

Query engine sẽ sử dụng index để truy xuất các Node (văn bản và/hoặc hình ảnh) có liên quan đến truy vấn. Thông tin được truy xuất này (văn bản và hình ảnh) sau đó sẽ được truyền đến một LLM, lý tưởng nhất là một LLM đa phương thức (như GPT-4V, Gemini Pro Vision), để tạo ra câu trả lời cuối cùng.

Xây dựng Pipeline RAG Đa phương thức Đơn giản với LlamaIndex

Hãy cùng đi qua các bước cơ bản để xây dựng một ứng dụng RAG đơn giản có thể trả lời câu hỏi dựa trên một tập hợp hình ảnh và văn bản liên quan.

Cài đặt và Cấu hình

Đầu tiên, bạn cần cài đặt các thư viện cần thiết. LlamaIndex có các gói mở rộng cho từng loại loader và mô hình:

pip install llama-index-core llama-index-multi-modal llama-index-llms-openai llama-index-embeddings-openai llama-index-vector-stores-chroma pypdf pillow openai chromadb

Bạn cũng cần cấu hình API key cho mô hình LLM và Embedding (ví dụ: OpenAI):

import os
from llama_index.core import Settings
from llama_index.llms.openai import OpenAI
from llama_index.embeddings.openai import OpenAIEmbedding
from llama_index.vector_stores.chroma import ChromaVectorStore
import chromadb
from llama_index.core import VectorStoreIndex, SimpleDirectoryReader

# Thiết lập API Key
os.environ["OPENAI_API_KEY"] = "YOUR_OPENAI_API_KEY"

# Cấu hình Mô hình LLM và Embedding
# Sử dụng mô hình có khả năng đa phương thức nếu có
Settings.llm = OpenAI(model="gpt-4o-mini", temperature=0.1) # hoặc "gpt-4-vision-preview", "gemini-pro-vision" nếu có access
Settings.embed_model = OpenAIEmbedding(model="text-embedding-ada-002") # Hoặc mô hình embedding đa phương thức nếu cần query bằng ảnh

Lưu ý: Để LlamaIndex thực sự tận dụng khả năng đa phương thức của LLM (như GPT-4V), bạn cần sử dụng một mô hình LLM có khả năng đó (ví dụ: gpt-4-vision-preview hoặc gpt-4o-mini). Mô hình embedding cũng có thể cần là mô hình đa phương thức nếu bạn muốn truy vấn bằng hình ảnh thay vì chỉ văn bản.

Tải Dữ liệu Đa phương thức

Giả sử bạn có một thư mục chứa các file văn bản (.txt, .md, .pdf) và hình ảnh (.jpg, .png). LlamaIndex’s SimpleDirectoryReader có thể tải cả hai loại này.

Bạn có thể đặt các file hình ảnh cạnh các file văn bản có liên quan, hoặc sử dụng các cấu trúc dữ liệu đặc biệt hơn.

# Tạo một thư mục chứa dữ liệu
# Ví dụ: data/
#        - document.txt
#        - image.jpg
#        - report.pdf
#        - chart.png

# Tải dữ liệu từ thư mục
# Sử dụng file_extractor để xử lý các loại file cụ thể (ví dụ: PDF có ảnh)
from llama_index.core import Settings
from llama_index.core.extractors import TitleExtractor, QuestionsAnsweredExtractor, SummaryExtractor
from llama_index.core.ingestion import IngestionPipeline
from llama_index.core.schema import MetadataMode
from llama_index.core.node_parser import SentenceSplitter

# Đây là cách cơ bản để tải file văn bản và hình ảnh riêng lẻ
# reader = SimpleDirectoryReader("data")
# documents = reader.load_data()

# Để xử lý các tài liệu phức tạp hơn (ví dụ: PDF chứa ảnh), bạn có thể cần các loader chuyên biệt
# Hoặc sử dụng pipeline ingestion để trích xuất thông tin và liên kết hình ảnh
# Ví dụ: Tải cả văn bản và hình ảnh
from llama_index.multi_modal_llms.openai import OpenAIMultiModal

# Cần một LLM đa phương thức để hiểu nội dung hình ảnh
# Settings.multi_modal_llm = OpenAIMultiModal(model="gpt-4o-mini") # hoặc "gpt-4-vision-preview"

# Tải các file ảnh như ImageDocument
image_documents = SimpleDirectoryReader("data", required_exts=[".jpg", ".png", ".jpeg"]).load_data()

# Tải các file văn bản
text_documents = SimpleDirectoryReader("data", required_exts=[".txt", ".md", ".pdf"]).load_data()

documents = image_documents + text_documents

print(f"Đã tải {len(documents)} tài liệu (hình ảnh + văn bản).")

Trong ví dụ trên, chúng ta tải hình ảnh và văn bản như các loại Document riêng biệt. LlamaIndex sẽ xử lý chúng thành các Node.

Tạo Nodes và Embeddings

LlamaIndex sẽ tự động xử lý việc tạo Node và embeddings khi bạn xây dựng index từ các Document. Khi gặp ImageDocument, nó sẽ sử dụng mô hình embedding hình ảnh (nếu được cấu hình) hoặc mô hình embedding đa phương thức.

# LlamaIndex sẽ tự động chia nhỏ văn bản thành TextNode
# và xử lý ImageDocument.

# Tạo pipeline ingestion cơ bản nếu cần tiền xử lý thêm
# pipeline = IngestionPipeline(
#     transformations=[
#         SentenceSplitter(chunk_size=1024, chunk_overlap=20),
#         # Có thể thêm các bước trích xuất metadata từ hình ảnh nếu cần
#         Settings.embed_model,
#     ]
# )
# nodes = pipeline.run(documents=documents)

# Tuy nhiên, với multimodal, thường đơn giản hơn là để VectorStoreIndex xử lý
# Bạn chỉ cần đảm bảo Settings.embed_model là phù hợp (đa phương thức hoặc kết hợp)
# và Settings.llm là đa phương thức cho bước query.

Xây dựng Index Vector

Chúng ta sẽ sử dụng VectorStoreIndex để lưu trữ các Node. Node từ văn bản sẽ được embedding bằng embedding model văn bản, Node từ hình ảnh (hoặc Node tham chiếu hình ảnh) sẽ được embedding bằng embedding model hình ảnh hoặc đa phương thức.

# Sử dụng ChromaDB làm vector store (hoặc bất kỳ vector store nào khác)
# client = chromadb.PersistentClient(path="./chroma_db")
# chroma_collection = client.get_or_create_collection("multimodal_rag_collection")
# vector_store = ChromaVectorStore(chroma_collection=chroma_collection)

# Xây dựng Index từ các documents
# LlamaIndex sẽ xử lý việc tạo nodes, embeddings và lưu vào vector store
index = VectorStoreIndex.from_documents(
    documents,
    # vector_store=vector_store # Có thể chỉ định vector store nếu muốn lưu trữ bền vững
)

print("Đã xây dựng Index thành công.")

Truy vấn

Sau khi index được xây dựng, bạn có thể tạo một Query Engine để hỏi các câu hỏi. Vì chúng ta đang làm việc với dữ liệu đa phương thức, bạn có thể hỏi các câu hỏi liên quan đến nội dung văn bản hoặc nội dung hình ảnh.

# Tạo Query Engine
# Đảm bảo rằng Settings.llm đã được thiết lập với một mô hình đa phương thức
query_engine = index.as_query_engine(similarity_top_k=3)

# Ví dụ truy vấn văn bản về nội dung tổng thể
query_text = "Tóm tắt các thông tin chính có trong các tài liệu này?"
response = query_engine.query(query_text)
print("Response (Text Query):")
print(response)

print("-" * 30)

# Ví dụ truy vấn liên quan đến hình ảnh
# Lưu ý: Khả năng truy vấn này phụ thuộc vào LLM và Embedding Model được sử dụng
# Nếu bạn dùng LLM đa phương thức (GPT-4V) và index chứa các Node hình ảnh,
# LLM sẽ được cung cấp hình ảnh cùng với các đoạn văn bản liên quan được truy xuất.
query_image_related = "Mô tả nội dung của các biểu đồ hoặc hình ảnh chính?"
response_image_related = query_engine.query(query_image_related)
print("Response (Image-related Query):")
print(response_image_related)

print("-" * 30)

# LlamaIndex cũng hỗ trợ các truy vấn đa phương thức trực tiếp trong một số trường hợp,
# ví dụ truyền cả văn bản và hình ảnh vào query engine (cần cấu hình đặc biệt hoặc model hỗ trợ)
# Hiện tại, cách phổ biến nhất là dựa vào LLM đa phương thức để hiểu hình ảnh được truy xuất.

Trong pipeline này, khi bạn đặt câu hỏi, LlamaIndex sẽ tìm kiếm trong index các Node (văn bản hoặc hình ảnh) có embeddings tương đồng với embedding của câu hỏi của bạn. Sau đó, nó sẽ lấy các Node được truy xuất này (bao gồm cả nội dung văn bản và các tham chiếu hình ảnh) và đưa vào mô hình LLM đa phương thức để tạo ra câu trả lời cuối cùng.

Các Cách Xử lý Dữ liệu Hình ảnh trong LlamaIndex

LlamaIndex cung cấp một số cách tiếp cận để tích hợp hình ảnh, tùy thuộc vào nguồn dữ liệu và mô hình bạn sử dụng:

Cách Tiếp cận Mô tả Yêu cầu Ưu điểm Nhược điểm
ImageDocument (Standalone) Xử lý hình ảnh như một tài liệu độc lập. LlamaIndex tạo embedding trực tiếp từ hình ảnh. Mô hình embedding hình ảnh hoặc đa phương thức. Đơn giản cho bộ sưu tập hình ảnh. Không tận dụng văn bản liên quan trực tiếp trong pipeline indexing/querying.
TextNode with Image Metadata Node văn bản chứa văn bản chính và metadata trỏ đến file hình ảnh liên quan. Embedding chỉ dựa trên văn bản. LLM đa phương thức để xử lý hình ảnh ở bước tổng hợp (synthesis). Kết hợp văn bản và hình ảnh ở bước cuối; linh hoạt với các mô hình embedding văn bản sẵn có. Truy vấn chỉ dựa trên văn bản; khả năng tìm kiếm hình ảnh bị hạn chế nếu không có mô tả văn bản tốt.
ImageNode with Text Metadata Node hình ảnh chứa embedding của hình ảnh và metadata là văn bản liên quan. Embedding dựa trên hình ảnh. Mô hình embedding hình ảnh hoặc đa phương thức. Cho phép tìm kiếm dựa trên sự tương đồng hình ảnh; kết hợp với văn bản ở bước tổng hợp. Truy vấn chỉ dựa trên hình ảnh; khả năng tìm kiếm văn bản bị hạn chế.
MultiModal Node (Embedded) Một Node duy nhất chứa cả văn bản và hình ảnh, tạo ra một embedding kết hợp biểu diễn cả hai. Mô hình embedding đa phương thức thực sự (ví dụ: CLIP). Tìm kiếm có thể dựa trên sự kết hợp ngữ nghĩa của cả văn bản và hình ảnh. Yêu cầu mô hình embedding đa phương thức mạnh mẽ; phức tạp hơn trong việc tạo Node.

Cách tiếp cận phổ biến nhất hiện nay với các LLM đa phương thức mạnh mẽ là sử dụng TextNode với Image Metadata (hoặc ImageDocument) và dựa vào LLM đa phương thức ở bước cuối để hiểu và kết hợp thông tin từ cả văn bản được truy xuất và hình ảnh liên quan được cung cấp trong context prompt.

Các Trường hợp Ứng dụng của Multimodal RAG với LlamaIndex

Khả năng xử lý dữ liệu đa phương thức mở ra nhiều cánh cửa ứng dụng thú vị:

  • Hệ thống Hỏi đáp Tài liệu phức tạp: Trả lời câu hỏi từ các báo cáo, hợp đồng, tài liệu kỹ thuật chứa cả văn bản, bảng biểu, biểu đồ và hình ảnh.
  • Phân tích Hình ảnh có Ngữ cảnh: Hỏi về nội dung của hình ảnh và nhận được câu trả lời được bổ sung bởi các mô tả văn bản hoặc thông tin liên quan từ các nguồn khác.
  • Quản lý và Tìm kiếm Tài sản Đa phương thức: Xây dựng hệ thống tìm kiếm thông minh cho thư viện hình ảnh, video, hoặc bản ghi âm dựa trên mô tả văn bản hoặc nội dung trực quan/âm thanh.
  • Hỗ trợ Khách hàng (Customer Support): Phân tích ảnh chụp màn hình lỗi cùng với log file và mô tả của người dùng để đưa ra giải pháp chính xác hơn.
  • Thương mại Điện tử: Trả lời câu hỏi về sản phẩm dựa trên ảnh sản phẩm, mô tả và đánh giá của khách hàng.

Như bạn thấy, các ứng dụng này đều yêu cầu hệ thống AI có thể xử lý và liên kết thông tin từ nhiều phương thức. LlamaIndex cung cấp một framework cấu trúc để làm điều này hiệu quả.

Thách thức và Hướng phát triển

Mặc dù LlamaIndex đã đơn giản hóa đáng kể việc xây dựng ứng dụng đa phương thức, vẫn còn một số thách thức:

  • Chất lượng Mô hình Đa phương thức: Hiệu suất cuối cùng phụ thuộc nhiều vào chất lượng của LLM đa phương thức và mô hình embedding đa phương thức được sử dụng. Các mô hình này vẫn đang được phát triển nhanh chóng.
  • Chi phí và Hiệu năng: Xử lý và embedding hình ảnh thường tốn kém và chậm hơn so với văn bản. LLM đa phương thức cũng có thể đắt hơn và chậm hơn LLM chỉ xử lý văn bản.
  • Phức tạp của Dữ liệu Thực tế: Dữ liệu thực tế thường phức tạp hơn nhiều (ví dụ: bố cục tài liệu phức tạp, hình ảnh chất lượng thấp, các loại dữ liệu phi cấu trúc khác). Việc tiền xử lý và trích xuất Node phù hợp vẫn cần nhiều công sức.
  • Các Phương thức Khác (Audio, Video): Mặc dù LlamaIndex có các loader cho âm thanh/video, việc tích hợp chúng vào pipeline RAG đa phương thức hiệu quả vẫn là một lĩnh vực đang được phát triển và đòi hỏi các mô hình và chiến lược phức tạp hơn.

Cộng đồng LlamaIndex và các nhà nghiên cứu đang liên tục làm việc để cải thiện các khía cạnh này, thêm hỗ trợ cho nhiều loại dữ liệu hơn, tối ưu hóa hiệu năng và tích hợp với các mô hình mới nhất.

Kết luận

Khả năng hiểu và tương tác với thế giới thực qua nhiều giác quan là một bước tiến lớn của AI, đưa chúng ta tiến gần hơn đến AGI. Đối với các Kỹ sư AI trong năm 2025 và xa hơn, việc nắm vững cách làm việc với dữ liệu đa phương thức là kỹ năng không thể thiếu.

LlamaIndex cung cấp một framework mạnh mẽ và linh hoạt để xây dựng các ứng dụng sử dụng dữ liệu tùy chỉnh, bao gồm cả dữ liệu đa phương thức. Bằng cách hiểu các khái niệm cốt lõi (Documents, Nodes, Embeddings, Index, Query Engine) và cách LlamaIndex xử lý hình ảnh cùng văn bản, bạn có thể bắt đầu xây dựng các ứng dụng RAG đa phương thức của riêng mình.

Việc triển khai RAG đa phương thức với LlamaIndex không chỉ là về kỹ thuật code mà còn về việc hiểu dữ liệu của bạn, lựa chọn mô hình phù hợp và thiết kế pipeline xử lý hiệu quả. Đây là một lĩnh vực đang phát triển nhanh, đòi hỏi sự học hỏi và thử nghiệm liên tục.

Chúc mừng bạn đã thêm một kỹ năng quan trọng vào hành trang AI Engineer Roadmap của mình! Trong các bài viết tiếp theo, chúng ta sẽ tiếp tục khám phá những chủ đề chuyên sâu hơn.

Hãy bắt tay vào thực hành với LlamaIndex và dữ liệu đa phương thức của bạn. Đừng ngại thử nghiệm với các loại dữ liệu khác nhau và khám phá những khả năng mới mà AI đa phương thức mang lại!

Chỉ mục