Nhiều công ty vẫn đang tự kể cho mình một câu chuyện đầy an ủi về chi phí Trí tuệ Nhân tạo (AI). Câu chuyện này nghe có vẻ hấp dẫn: token thì rẻ, các mô hình ngày càng tốt hơn, và một vài công cụ hỗ trợ (copilot), một vài tác nhân (agent), có thể một chatbot hỗ trợ, hoặc một số công cụ tạo mã trong CI sẽ giúp mọi thứ hiệu quả hơn. Người ta mua Mac mini, triển khai mọi thứ trên các nền tảng như Hermes hay OpenClaw, và cho rằng dù chúng có tiêu tốn bao nhiêu token đi chăng nữa, tất cả vẫn nằm gọn trong danh mục “phí đăng ký phần mềm”.
Cách đây vài năm, những kỹ sư phần mềm như tôi đã không tin vào điều này, nhưng giờ đây, sự thật đã bắt đầu tác động đến cả những người không chuyên về kỹ thuật – bao gồm cả các nhà đầu tư.
Quan điểm của tôi rất đơn giản: **token đang bắt đầu hành xử ít giống một tính năng năng suất rẻ tiền mà giống một khoản chi phí lao động biến động hơn.**
Trong ngày càng nhiều quy trình làm việc, chi phí token đã đủ đắt để cạnh tranh với mức mà các công ty sẵn sàng trả cho nhân sự cấp thấp. Không chỉ là lập trình viên junior, mà còn cả trợ lý junior!
Điều tồi tệ nhất thậm chí không phải là giá tuyệt đối, mà là sự khó lường. Một nhân viên cấp thấp có mức lương cố định. Trong khi đó, một ngân sách token lại có “tâm trạng” riêng. Một con người khi mắc lỗi sẽ học hỏi và cố gắng sửa chữa cho lần sau. Còn một mô hình ngôn ngữ lớn (LLM)? Có thể nó sẽ nói lời xin lỗi, hoặc nói rằng ai đó đã “khiến nó làm theo cách này”, thực chất đó không phải lỗi của AI. Nó chỉ là một công cụ, một công cụ mạnh mẽ và mang tính cách mạng, nhưng vẫn chỉ là một công cụ.
Mục lục
Bảng Tính Bắt Đầu “Nói Dối” Ngay Từ Đầu
Trên lý thuyết, giá token vẫn có vẻ vô hại. Chúng được báo giá theo triệu token, một cách tuyệt vời để khiến việc sử dụng thực tế trở nên trừu tượng. Dưới đây là một số ví dụ từ các trang giá công khai hiện tại:
- OpenAI GPT-5.4:
$2.50 / 1 triệu inputvà$15 / 1 triệu output - Anthropic Claude Sonnet 4.6:
$3 / 1 triệu inputvà$15 / 1 triệu output - Google Gemini 2.5 Pro:
$1.25 / 1 triệu inputvà$10 / 1 triệu outputcho prompt dưới 200k token, sau đó là$2.50 inputvà$15 outputvượt ngưỡng đó.
Điều đó vẫn nghe có vẻ rẻ nếu bạn chỉ nghĩ về một vài prompt trong môi trường thử nghiệm. Nhưng nó sẽ không còn rẻ nữa ngay khi AI ngừng là một món đồ chơi và bắt đầu trở thành một phần trong mô hình hoạt động của bạn.
Hãy cùng làm một phép tính ít “ảo” hơn một chút.
Hãy tưởng tượng một đội gồm 10 người đang sử dụng các tác nhân viết mã (coding agents), công cụ tóm tắt tài liệu, soạn thảo hỗ trợ và tự động hóa nội bộ. Đây không phải là khoa học viễn tưởng, mà chỉ là hành vi “chúng ta đã áp dụng AI ở khắp mọi nơi” thông thường.
Giả sử mỗi người dùng tiêu thụ **5 triệu token đầu vào và 2 triệu token đầu ra mỗi ngày làm việc**. Đây không phải là con số nhỏ, nhưng cũng không phải là điên rồ khi bạn tính đến ngữ cảnh dài, các lần thử lại, dấu vết công cụ, mã được tạo, giải thích và các vòng xem xét.
Đây là chi phí ước tính trong khoảng 22 ngày làm việc:
| Nhà cung cấp/mô hình | Chi phí hàng tháng ước tính cho 10 người dùng |
|---|---|
| OpenAI GPT-5.4 | $9.350 |
| Claude Sonnet 4.6 | $9.900 |
| Gemini 2.5 Pro | $7.150 đến $9.350 |
Khoảng giá trên Gemini đã là một phần của vấn đề. Cùng một đội có thể phải trả những con số rất khác nhau tùy thuộc vào hành vi kích thước prompt.
Bây giờ, hãy so sánh điều đó với dữ liệu tiền lương thực tế. Cục Thống kê Lao động Hoa Kỳ (U.S. Bureau of Labor Statistics) liệt kê:
- $47.460/năm là mức lương trung bình năm 2024 cho thư ký và trợ lý hành chính.
- $133.080/năm là mức lương trung bình năm 2024 cho nhà phát triển phần mềm.
- $79.850/năm là mức lương ở phân vị thứ 10 thấp nhất cho nhà phát triển phần mềm.
Tính theo tháng, con số này tương đương khoảng:
- $3.955/tháng cho một trợ lý hành chính ở mức trung bình.
- $6.654/tháng cho 10% nhà phát triển phần mềm có mức lương thấp nhất.
- $11.090/tháng cho một nhà phát triển phần mềm ở mức trung bình.
Vậy nên, không phải một kỹ sư tình cờ sử dụng một mô hình đột nhiên đắt hơn một nhà phát triển junior. Đó sẽ là một tiêu đề ngớ ngẩn. Nhưng một quy trình làm việc AI trên toàn công ty chắc chắn có thể trở nên đắt hơn chi phí lao động cấp thấp, rất nhanh chóng. Và trong một số trường hợp, nó đã như vậy.
Năm vị trí AI sử dụng nhiều có thể vượt chi phí của một trợ lý hành chính trung bình. Mười vị trí có thể tiến gần hoặc vượt quá những gì nhiều công ty sẽ dự trù cho một nhà phát triển mới vào nghề. Đó là chưa kể đến chi phí giám sát (observability), cơ sở dữ liệu vector, các đường dẫn đánh giá (eval pipelines), các công cụ điều phối (orchestration glue), và những con người vẫn cần thiết để kiểm tra xem máy có làm điều gì ngu ngốc hay không.
Chi Phí Token Tệ Hơn Tiền Lương Vì Kém Ổn Định Hơn
Đây là phần mà tôi nghĩ nhiều giám đốc điều hành vẫn chưa hoàn toàn hiểu rõ. Tiền lương thì đắt, đúng vậy, nhưng nó rõ ràng và dễ dự đoán.
Chi phí token tệ hơn ở một điểm quan trọng: **bạn thường không biết hồ sơ chi phí thực sự cho đến khi quy trình làm việc trở nên phổ biến.**
Có một vài lý do:
1. Chi phí Output Là Nơi Gây Đau Đầu
Nhiều người tập trung vào giá input vì nó có vẻ nhỏ. Đó là điểm neo sai lầm. Phần đắt đỏ thường là output. Đặc biệt khi các mô hình suy luận lâu hơn, giải thích nhiều hơn, thử lại nhiều hơn, hoặc xuất ra những khối mã và văn bản khổng lồ mà không ai yêu cầu chúng phải dài dòng đến thế.
- OpenAI GPT-5.4 đắt hơn 6 lần về output so với input.
- Claude Sonnet 4.6 đắt hơn 5 lần về output so với input.
- Gemini 2.5 Pro cũng tăng mạnh về output.
Vì vậy, đội ngũ nói rằng “chúng tôi chỉ gửi nhiều ngữ cảnh” thường bỏ lỡ hóa đơn thực sự. Hóa đơn thường xuất hiện khi hệ thống bắt đầu “nói lại” quá nhiều.
2. Cùng Một Công Việc Có Thể Đột Ngột Được Token Hóa Khác Nhau
Anthropic ghi nhận rằng Claude Opus 4.7 sử dụng một bộ tokenizer mới có thể tiêu thụ **nhiều hơn tới 35% token cho cùng một đoạn văn bản cố định**.
Điều đó sẽ khiến mọi người làm tài chính cảm thấy hơi khó chịu. Hãy tưởng tượng bạn phải trả thêm 35% cho cùng một khối lượng công việc ngữ nghĩa chỉ vì bộ tokenizer đã thay đổi. Không phải vì sản phẩm của bạn thay đổi. Không phải vì khách hàng thay đổi. Mà chỉ vì nhà cung cấp thay đổi cách đếm văn bản.
Đó không giống chi phí lao động. Nó giống hóa đơn tiện ích vậy.
3. Ngưỡng và Chế Độ Thay Đổi Hóa Đơn Một Cách Thầm Lặng
Gemini 2.5 Pro tính một mức giá cho các prompt dưới 200k token và một mức giá cao hơn cho prompt vượt quá ngưỡng đó. Anthropic có các hệ số nhân theo khu vực và chế độ nhanh với giá cao cấp. OpenAI cung cấp chiết khấu theo gói, nhưng cũng có phí bảo hiểm lưu trữ dữ liệu theo khu vực.
Vì vậy, ngay cả khi hành vi ứng dụng “trông giống nhau” từ bên ngoài, hình dạng hóa đơn nội bộ có thể thay đổi vì:
- Prompt trở nên dài hơn.
- Tỷ lệ truy cập bộ nhớ cache (cache hit rates) giảm.
- Một nhóm đã bật chế độ nhanh hơn.
- Một sản phẩm đã chuyển đổi khu vực.
- Chức năng “grounding” hoặc tìm kiếm được thêm vào.
- Mô hình bắt đầu tạo ra nhiều output hơn tháng trước.
Đó không phải là việc điều động nhân sự có thể dự đoán được. Đó là sự trôi dạt chi tiêu.
4. Các Agent Nhân Lên Chi Phí Token Ẩn
Điều này trở nên tồi tệ hơn với các tác nhân (agents). Một tương tác trò chuyện thông thường là một chuyện. Một vòng lặp tác nhân (agent loop) lại là một “con thú” hoàn toàn khác.
Bây giờ bạn phải trả tiền cho:
- Prompt ban đầu.
- Các schema công cụ.
- Kết quả công cụ.
- Ngân sách suy luận liên quan đến chuỗi suy nghĩ (chain-of-thought-adjacent reasoning budgets), tùy thuộc vào ngữ nghĩa của nền tảng.
- Các lần thử lại.
- Ngữ cảnh tập tin.
- Tóm tắt các lượt tương tác trước đó.
- Các lần xem xét.
- Các vòng lặp tự sửa lỗi.
Mọi người thích nói “tác nhân đã hoàn thành nhiệm vụ này trong 8 phút.” Tuyệt vời. Điều mà họ thường không nói là tác nhân có thể đã tiêu thụ lượng token tương đương với một vài tương tác thông thường để đạt được điều đó.
Điều đó có nghĩa là chi phí biên trên mỗi kết quả hữu ích của bạn thường mờ nhạt hơn nhiều so với những gì bảng điều khiển hiển thị.
Điều Này Không Có Nghĩa Là “Ngừng Sử Dụng AI”
Để làm rõ, tôi không đưa ra một lập luận lỗi thời ở đây. Tôi không nói, “AI quá đắt, hãy quay lại làm mọi thứ thủ công.” Điều đó thật ngớ ngẩn.
AI là một đòn bẩy thực sự. Nó đã hữu ích. Nó hoàn toàn có thể giúp một người giỏi trở nên mạnh mẽ hơn rất nhiều.
Nhưng tôi nghĩ các công ty cần ngừng coi chi phí token như thể nó tự động tốt hơn chi phí nhân sự. Đôi khi là vậy. Đôi khi không. Và đôi khi nó chỉ tốt hơn nếu một con người vẫn rõ ràng phụ trách:
- Phạm vi (scope)
- Đánh giá (review)
- Giải quyết vấn đề leo thang (escalation)
- Kiểm soát chất lượng (quality control)
- Kỷ luật ngân sách (budget discipline)
- Lựa chọn mô hình (model selection)
Mô hình chiến thắng không phải là “thay thế nhân sự cấp thấp bằng token.” Mô hình chiến thắng giống như: **sử dụng token để khuếch đại sức mạnh của những người giỏi, trong khi những người giỏi vẫn là chủ sở hữu của sự đúng đắn, chi phí và hậu quả.**
Đó là một câu nghe có vẻ nhàm chán hơn nhiều. Nhưng đó cũng là câu sẽ tồn tại được khi tiếp xúc với bộ phận tài chính.
Quan Điểm Cá Nhân Của Tôi
Tôi nghĩ nhiều hoạt động áp dụng AI hiện nay đang được bán ra với cùng một thói quen xấu mà chúng ta đã thấy trong các cuộc trò chuyện về điện toán đám mây thời kỳ đầu. Mọi người thích câu chuyện về lợi ích. Không ai muốn đi sâu vào hình dạng của hóa đơn.
Vì vậy, các nhóm nói những điều như:
- “Chỉ vài đô la mỗi triệu token thôi.”
- “Mô hình đủ rẻ.”
- “Chúng ta sẽ tối ưu sau.”
- “Cứ để mọi người sử dụng mô hình tốt nhất ngay bây giờ.”
Đó chính xác là cách các chi phí biến đổi nhỏ trở thành chi phí chiến lược. Và không giống như tuyển dụng, chi phí token có thể trở nên tồi tệ hơn mà không có khoảnh khắc cảm xúc rõ ràng nào. Bạn không phỏng vấn một token. Bạn không đào tạo một token. Bạn không nhận thấy 14 lần mở rộng quy trình làm việc nhỏ theo cách bạn nhận thấy một yêu cầu tăng biên chế mới.
Đó là lý do tại sao danh mục này nguy hiểm. Nó vượt qua bản năng quản lý thông thường. Bạn sẽ tranh luận về việc tuyển dụng một nhân sự cấp thấp. Bạn có thể sẽ không tranh luận về một loạt các quy trình làm việc của tác nhân “hữu ích” cho đến khi hóa đơn bắt đầu trông giống như một danh mục lương nhỏ.
Các Công Ty Thông Minh Nên Làm Gì?
Khuyến nghị của tôi không phải là chống lại AI. Nó là chống lại sự ảo tưởng. 🌈
Nếu bạn nghiêm túc về việc sử dụng các mô hình trong toàn công ty, hãy làm một vài điều “nhàm chán” ngay từ sớm:
1. Định Giá Quy Trình Làm Việc, Không Phải Prompt
Đừng chỉ đánh giá một yêu cầu demo dễ thương. Hãy đo lường toàn bộ quy trình làm việc: các lần thử lại, sự phát triển ngữ cảnh, các cuộc gọi công cụ, các lần xem xét và độ dài output trung bình.
2. Phân Loại Mô Hình Có Chủ Ý
Không phải mọi tác vụ đều xứng đáng với mô hình tiên tiến nhất. Hầu hết các công ty đang phải trả tiền quá nhiều vì họ sử dụng cấu hình suy luận đắt nhất cho công việc có thể được định tuyến đến một mô hình rẻ hơn.
3. Đặt Con Người Ở Ranh Giới Chấp Thuận
Đừng sử dụng các mô hình đắt tiền để thay thế quản lý. Nếu output quan trọng, một con người vẫn nên chịu trách nhiệm chấp thuận. Nếu không, bạn đang trả tiền cho việc tạo ra và sau đó lại trả tiền cho hậu quả.
4. Coi Ngân Sách Token Như Ngân Sách Cloud
Hãy gắn thẻ chúng. Hãy phân bổ chúng. Hãy cảnh báo về chúng. Hãy đặt giới hạn cứng khi cần thiết. Điện toán đám mây đã dạy chúng ta điều này rồi. Chi tiêu biến đổi chỉ “hiệu quả” khi có người thực sự giám sát nó.
5. Tối Ưu Hóa Để Có Đòn Bẩy Được Kiểm Soát
Sự so sánh đúng đắn không phải là “AI đấu với con người.” Mà là “AI cộng với một con người giỏi so với cách làm việc cũ.” Khung nhìn đó thường dẫn đến kiến trúc tốt hơn và kinh tế học trung thực hơn.
Tổng Kết
Token vẫn hữu ích. Đôi khi cực kỳ hữu ích!!! Tôi hiểu điều đó.
Nhưng chúng không còn là một lỗi làm tròn dễ thương nữa. Và chúng chắc chắn không đủ dự đoán để coi như một “món ăn nhẹ” phần mềm vô hại.
Đối với nhiều đội ngũ, chi phí token đang trở thành một hạng mục ngân sách thực sự liên quan đến lao động. Trong một số quy trình làm việc, nó đã đủ đắt để vượt qua chi phí của nhân sự cấp thấp. Trong nhiều trường hợp khác, ít nhất nó cũng đủ đắt để cần so sánh trước khi triển khai, chứ không phải sau khi hóa đơn đến.
Vì vậy, tất nhiên, tôi sẽ không ngừng sử dụng AI, đây là sự điên rồ khi bỏ lỡ tối ưu hóa tốt.
Tôi chỉ sẽ ngừng giả vờ rằng token tự động rẻ hơn con người. Chúng thường rẻ hơn một số loại công việc. Điều đó khác biệt.
Và không giống như con người, token đi kèm với một mô hình thanh toán có thể thay đổi bất ngờ, một hồ sơ chi phí bùng nổ theo các mô hình sử dụng và một thói quen xấu là trông có vẻ rẻ cho đến khi chúng không còn rẻ nữa.
Đó là lý do tại sao mặc định hiện tại của tôi rất đơn giản: **sử dụng AI một cách quyết liệt, nhưng đừng bao giờ để ngân sách token hoạt động mà không có sự giám sát của người lớn.**
Tài liệu tham khảo
- OpenAI, API Pricing — https://openai.com/api/pricing/
- Anthropic, Claude pricing — https://docs.anthropic.com/en/docs/about-claude/pricing
- Google, Gemini Developer API pricing — https://ai.google.dev/gemini-api/docs/pricing
- U.S. Bureau of Labor Statistics, Software Developers, Quality Assurance Analysts, and Testers — https://www.bls.gov/ooh/computer-and-information-technology/software-developers.htm
- U.S. Bureau of Labor Statistics, Secretaries and Administrative Assistants — https://www.bls.gov/ooh/office-and-administrative-support/secretaries-and-administrative-assistants.htm



