Claude Opus 4.5 vs GPT-5.2 High vs Gemini 3 Pro: Cuộc Đối Đầu Mã Hóa Thực Tế Cho Môi Trường Sản Xuất

Thế giới phát triển web (WebDev) đang chứng kiến sự trỗi dậy mạnh mẽ của các mô hình ngôn ngữ lớn (LLM), định hình lại cách chúng ta viết mã và đổi mới. Trên bảng xếp hạng LMArena, ba “gã khổng lồ” hiện đang chiếm ưu thế tuyệt đối, đó là Claude Opus 4.5 từ Anthropic, GPT-5.2-codex (high) của OpenAI và Gemini 3 Pro đến từ Google. Các công cụ AI này không chỉ là những trợ lý thông thường mà đã trở thành những đối thủ đáng gờm trong việc tạo ra mã nguồn chất lượng cao.

[![Image 1: LLMDev models ranking](https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fltml19xef278wmy3f5y1.png)](https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fltml19xef278wmy3f5y1.png)

Để có cái nhìn sâu sắc về khả năng thực sự của chúng trong môi trường phát triển thực tế, chúng tôi đã tiến hành một thử nghiệm nghiêm ngặt. Ba mô hình AI hàng đầu này được đưa vào cùng một dự án mã nguồn mở hiện có (với hơn 8.000 ngôi sao và 50.000+ dòng mã) và được yêu cầu xây dựng một số tính năng thực tế, giống như cách một nhà phát triển phần mềm thông thường sẽ làm.

Mục tiêu là đánh giá hiệu suất của chúng trong các điều kiện giống hệt nhau: cùng kho lưu trữ mã nguồn, cùng câu lệnh yêu cầu (prompts) và cùng các ràng buộc kỹ thuật. Để đảm bảo tính công bằng và khách quan, mỗi tác vụ được thực hiện ba lần cho mỗi mô hình, và chúng tôi chỉ chọn kết quả tốt nhất để so sánh. Sau đó, các yếu tố quan trọng như chất lượng mã, mức độ can thiệp thủ công cần thiết và khả năng hoạt động cuối cùng của tính năng đã được phân tích tỉ mỉ.

Lưu ý quan trọng: Kết quả của thử nghiệm này không phải là một quy tắc tuyệt đối hay tuyên bố cuối cùng. Đây chỉ là một tập hợp nhỏ các tác vụ mã hóa trong thế giới thực, phản ánh cách mỗi mô hình đã hoạt động trong cấu hình cụ thể này, mang lại cái nhìn tổng quan về sự khác biệt trong hiệu suất của ba mô hình hàng đầu khi thực hiện cùng một công việc.

Tóm Lược Nhanh Về Hiệu Suất

Nếu bạn muốn có một cái nhìn tổng thể nhanh chóng, đây là cách ba mô hình đã thể hiện trong các thử nghiệm của chúng tôi:

* Claude Opus 4.5: Mô hình này thể hiện sự nhất quán vượt trội. Claude Opus 4.5 đã thành công trong việc triển khai các tính năng hoạt động hiệu quả cho cả hai tác vụ, và đặc biệt, giao diện người dùng (UI) được tạo ra có độ hoàn thiện tốt nhất trong số ba mô hình. Nhược điểm chính là chi phí. Nếu Anthropic có thể duy trì hiệu suất này trong khi giảm thiểu chi phí, Claude Opus 4.5 thực sự sẽ trở thành một đối thủ đáng gờm, có thể vượt qua hầu hết các mô hình khác trên thị trường.

* GPT-5.2-codex (high): Được đánh giá là một trong những mô hình tốt nhất, nhưng rõ ràng nó chậm hơn do mức độ suy luận cao hơn. Khi thành công, chất lượng và cấu trúc mã của GPT-5.2-codex (high) rất tuyệt vời. Tuy nhiên, mô hình này đòi hỏi sự kiên nhẫn hơn so với hai đối thủ còn lại trong việc xử lý kho lưu trữ mã nguồn phức tạp này.

* Gemini 3 Pro: Nổi bật với hiệu quả cao nhất. Cả hai tác vụ đều hoạt động tốt, nhưng đầu ra thường có cảm giác như một phiên bản tối thiểu khả thi, đặc biệt là đối với bảng điều khiển phân tích. Mặc dù vậy, tốc độ và chi phí thấp là những điểm cộng lớn.

Lời khuyên: Nếu bạn đang tìm kiếm lựa chọn an toàn nhất để “triển khai tính năng trong một kho lưu trữ lớn”, Opus 4.5 cho thấy độ tin cậy cao nhất trong các lần chạy thử nghiệm của chúng tôi. Nếu bạn ưu tiên tốc độ và chi phí, và sẵn sàng tự mình tinh chỉnh giao diện người dùng, Gemini 3 Pro là một lựa chọn đáng cân nhắc.

Quy Trình Kiểm Thử Chi Tiết

Để thực hiện thử nghiệm này, chúng tôi đã sử dụng các tác nhân mã hóa dựa trên giao diện dòng lệnh (CLI) sau:

* Claude Opus 4.5: Claude Code (công cụ mã hóa tác nhân dựa trên terminal của Anthropic)
* Gemini 3 Pro: Gemini CLI
* GPT-5.2 High: Codex CLI

Kho lưu trữ mã nguồn được sử dụng cho toàn bộ thử nghiệm là: iib0011/omni-tools. Đây là một dự án có quy mô đáng kể, cung cấp một môi trường thực tế để đánh giá các mô hình.

Chúng tôi đã kiểm tra các mô hình với hai tác vụ khác nhau, mỗi tác vụ được thiết kế để kiểm tra các khía cạnh cụ thể của khả năng mã hóa và hiểu ngữ cảnh:

  1. Tác vụ 1: Thêm Bảng Hoạt Động Toàn Cầu (Ctrl + K)

    Mỗi mô hình được yêu cầu tạo một menu hành động toàn cầu, có thể mở bằng một phím tắt. Tính năng này mở rộng chức năng tìm kiếm hiện có bằng cách thêm các hành động, quản lý trạng thái toàn cầu và điều hướng bằng bàn phím. Tác vụ này kiểm tra khả năng hiểu các mẫu UX hiện tại của mô hình và tránh lặp lại mã mà không làm hỏng các chức năng hiện có.

  2. Tác vụ 2: Bảng Điều Khiển Phân Tích Sử Dụng Công Cụ + Thông Tin Chi Tiết

    Mỗi mô hình phải thêm tính năng theo dõi việc sử dụng công cụ thực tế trên toàn ứng dụng, lưu trữ dữ liệu cục bộ, sau đó xây dựng một bảng điều khiển phân tích hiển thị các thông tin như các công cụ được sử dụng nhiều nhất, hoạt động gần đây và các bộ lọc cơ bản. Tác vụ này đánh giá khả năng của mô hình trong việc xử lý dữ liệu, lưu trữ và trình bày thông tin phức tạp.

Chúng tôi đã so sánh chất lượng mã, mức sử dụng token, chi phí và thời gian hoàn thành tác vụ.

Lưu ý quan trọng: Chúng tôi sẽ chia sẻ các thay đổi mã nguồn cho mỗi tác vụ của từng mô hình dưới dạng tệp `.patch`. Bằng cách này, bạn có thể dễ dàng xem chúng trên hệ thống cục bộ của mình bằng cách clone repository và áp dụng tệp patch bằng lệnh `git apply `. Phương pháp này giúp chia sẻ các thay đổi một cách minh bạch và dễ dàng.

Kiểm Tra Mã Hóa Thực Tế

Tác vụ 1: Thêm Bảng Hoạt Động Toàn Cầu (Ctrl + K)

Tác vụ này được thiết kế để đơn giản nhưng bao quát: tất cả các mô hình bắt đầu từ cùng một commit cơ sở và sau đó thực hiện cùng một câu lệnh yêu cầu để xây dựng tính năng. Kết quả được đánh giá dựa trên “Kết quả tốt nhất trong 3 lần chạy”.

Dưới đây là câu lệnh yêu cầu (prompt) đã được sử dụng:

This project already has a search input on the home page that lets users find tools. I want to add an improved, global version of this idea that works as an Action Palette, similar to what you see in editors like VS Code.

What to build

* Pressing Ctrl + K (or Cmd + K on macOS) should open a centered action palette overlay from anywhere in the app.
* The palette should support:
  * Searching and navigating to tools (reuse existing tool metadata)
  * Executing actions, such as:

    * Toggle dark mode
    * Switch language
    * Toggle user type filter (General / Developer)
    * Navigate to Home and Bookmarks
    * Clear recently used tools

* Fully keyboard-driven experience:

  * Type to filter
  * Arrow keys to navigate
  * Enter to execute
  * Escape to close

Notes

* This should not replace the existing home page search. Think of it as a more powerful, global version that combines navigation and actions.
* The implementation should follow existing patterns, styling, and state management used in the codebase.

GPT-5.2-Codex (high)

GPT-5.2 đã xử lý tác vụ này một cách đáng ngạc nhiên. Việc triển khai toàn diện và mạnh mẽ, về cơ bản đã hoàn thành toàn bộ bộ tính năng, bao gồm cả hỗ trợ i18n, mà không cần nhiều lần sửa lỗi.

Tuy nhiên, mô hình này mất nhiều thời gian hơn một chút so với một số mô hình khác (~20 phút), điều này được dự đoán trước vì mức độ suy luận được đặt rõ ràng là cao. Bạn có thể thấy rõ mô hình dành nhiều thời gian hơn để suy nghĩ về kiến trúc, đặt tên và các trường hợp biên, thay vì vội vàng xuất mã. Sự đánh đổi này cảm thấy xứng đáng ở đây.

[![Image 2: gpt 5.2 high model timing to finish a task](https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F9r0rf1kkm4x2nlqpmnyg.png)](https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F9r0rf1kkm4x2nlqpmnyg.png)

Lượng token sử dụng của mô hình cao hơn đáng kể do mức độ suy luận được đặt cao, nhưng mã đầu ra cũng phản ánh chất lượng tương xứng.

Bạn có thể tìm mã mà nó đã tạo tại đây: GPT-5.2 High Code

  • Chi phí: ~0.9-1.0 USD
  • Thời lượng: ~20 phút (thời gian API)
  • Thay đổi mã: +540 dòng, loại bỏ rất ít
  • Sử dụng Token:
    • Tổng cộng: ~203k
    • Đầu vào: ~140k (+ ngữ cảnh được cache)
    • Đầu ra: ~64k
    • Token suy luận: ~47k

Lưu ý: Chúng tôi đã chạy cùng một câu lệnh yêu cầu với cùng một mô hình sử dụng mức suy luận mặc định (trung bình). Sự khác biệt thực sự là rất lớn. Với mức suy luận được đặt cao, chất lượng mã, cấu trúc và hầu hết mọi thứ đều tăng vọt. Đây thậm chí không phải là một so sánh công bằng.

[![Image 3: gpt 5.2 model token usage to finish a task](https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fhg35u0w8yip2r8myxqlf.png)](https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fhg35u0w8yip2r8myxqlf.png)

Claude Opus 4.5

Claude Opus 4.5 đã dồn toàn lực và chuẩn bị một loạt các chiến lược khác nhau. Ban đầu, nó gặp phải các vấn đề về build, nhưng đã liên tục chạy build cho đến khi khắc phục được tất cả các lỗi build và lint. Điều này cho thấy khả năng tự sửa lỗi ấn tượng của mô hình.

[![Image 4: claude opus 4.5 build error](https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Feib2ks93r37revcoqg3e.png)](https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Feib2ks93r37revcoqg3e.png)

Toàn bộ quá trình chạy mất khoảng 7 phút 50 giây, là thời gian nhanh nhất trong số các mô hình cho thử nghiệm này. Tất cả các tính năng đều hoạt động như yêu cầu, và rõ ràng, giao diện người dùng trông siêu đẹp và chính xác như mong đợi.

Bạn có thể tìm mã mà nó đã tạo tại đây: Claude Opus 4.5 Code

Thành thật mà nói, điều này đã vượt quá mong đợi; ngay cả các văn bản i18n cũng được thêm vào và hiển thị trong giao diện người dùng đúng như dự kiến. Một màn trình diễn tuyệt vời!

  • Chi phí: 0.94 USD
  • Thời lượng: 7 phút 50 giây (thời gian API)
  • Thay đổi mã: +540 dòng, -9 dòng

[![Image 5: claude opus 4.5 token usage to finish a task](https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F7junvt7jb8wulyvnwnce.png)](https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F7junvt7jb8wulyvnwnce.png)

Gemini 3 Pro

Gemini 3 Pro đã làm cho tính năng hoạt động, nhưng rõ ràng nó không cùng đẳng cấp với GPT-5.2 High hoặc Claude Opus 4.5. Giao diện người dùng mà nó xây dựng vẫn ổn và hoàn toàn có thể sử dụng được, nhưng nó có cảm giác hơi “tối giản” và bạn không có nhiều lựa chọn trong bảng màu so với hai mô hình kia.

Một điểm thiếu sót rõ ràng là chức năng chuyển đổi ngôn ngữ không hiển thị trong bảng hoạt động, điều này làm cho việc hỗ trợ i18n trở nên không đầy đủ mặc dù các bản dịch về mặt kỹ thuật vẫn tồn tại.

Bạn có thể tìm mã mà nó đã tạo tại đây: Gemini 3 Pro Code

  • Chi phí: Thấp (được hỗ trợ đáng kể bởi việc đọc cache)
  • Thời lượng: ~10 phút 49 giây (thời gian API)
  • Thay đổi mã: +428 dòng, -65 dòng
  • Sử dụng Token:
    • Đầu vào: ~79k
    • Đọc Cache: ~536k
    • Đầu ra: ~10.7k
    • Tiết kiệm: ~87% token đầu vào được phục vụ từ cache

[![Image 6: gemini 3 pro token usage to finish a task](https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fuzef5ujwyq1f5o19e7dg.png)](https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fuzef5ujwyq1f5o19e7dg.png)

Nhìn chung, Gemini 3 Pro đứng ở vị trí thứ ba khá rõ ràng trong tác vụ này. Nó hoạt động, giao diện người dùng trông ổn và không có gì bị hỏng hoàn toàn, nhưng so với chiều sâu, độ hoàn thiện và độ tinh xảo của GPT-5.2 High và Claude Opus 4.5, nó cảm thấy bị tụt lại phía sau.

Tác vụ 2: Bảng Điều Khiển Phân Tích Sử Dụng Công Cụ + Thông Tin Chi Tiết

Thử nghiệm này là một bước nâng cấp so với bảng hoạt động, đòi hỏi khả năng xử lý dữ liệu, lưu trữ và trình bày thông tin phức tạp.

Bạn có thể tìm câu lệnh yêu cầu (prompt) đã được sử dụng tại đây: Prompt

GPT-5.2-Codex (high)

GPT-5.2 đã hoàn thành xuất sắc tác vụ này. Kết quả cuối cùng thật đáng kinh ngạc. Tính năng theo dõi việc sử dụng công cụ hoạt động chính xác như mong đợi, dữ liệu được lưu trữ liên tục một cách chính xác và bảng điều khiển có cảm giác như một tính năng sản phẩm thực sự. Các công cụ được sử dụng nhiều nhất, hoạt động gần đây, bộ lọc – mọi thứ đều hoạt động hoàn hảo.

Một điểm cộng đáng chú ý là nó cũng đã kết nối các hành động liên quan đến phân tích vào Bảng Hoạt Động từ Tác vụ 1, thể hiện khả năng tích hợp và hiểu ngữ cảnh tốt.

Tác vụ này mất nhiều thời gian hơn một chút so với thử nghiệm đầu tiên, khoảng 26 phút, nhưng một lần nữa, đó là sự đánh đổi với mức độ suy luận cao. Bạn có thể thấy mô hình đã dành thời gian để suy nghĩ kỹ về mô hình hóa dữ liệu, tái sử dụng và tránh logic trùng lặp. Điều này hoàn toàn xứng đáng ở đây.

Bạn có thể tìm mã mà nó đã tạo tại đây: GPT-5.2 High Code

  • Chi phí: ~1.1–1.2 USD
  • Thời lượng: ~26 phút (thời gian API)
  • Thay đổi mã: Cập nhật nhiều tệp lớn, cấu trúc rõ ràng
  • Sử dụng Token:
    • Tổng cộng: ~236k
    • Đầu vào: ~162k (+ ngữ cảnh cache nặng)
    • Đầu ra: ~75k
    • Token suy luận: ~57k

GPT-5.2 High tiếp tục chứng tỏ mình chậm nhưng cực kỳ mạnh mẽ, và đối với một tác vụ như thế này, đó là một sự đánh đổi rất tốt.

Claude Opus 4.5

Claude Opus 4.5 cũng đã thể hiện rất tốt trong tác vụ này. Việc triển khai cuối cùng hoạt động toàn diện, và thành thật mà nói, từ góc độ giao diện người dùng và tính năng thuần túy, rất khó để phân biệt giữa kết quả của nó và GPT-5.2 High. Bảng điều khiển trông sạch sẽ, dữ liệu có ý nghĩa và các bộ lọc hoạt động như mong đợi.

Bạn có thể tìm mã mà nó đã tạo tại đây: Claude Opus 4.5 Code

  • Chi phí: 1.78 USD
  • Thời lượng: ~8 phút (thời gian API)
  • Thay đổi mã: +1,279 dòng, -17 dòng

Gemini 3 Pro

Gemini 3 Pro hoàn thành công việc, nhưng rõ ràng nó có một cách tiếp cận tối thiểu hơn so với GPT-5.2 High và Claude Opus 4.5.

Mặc dù vậy, trải nghiệm tổng thể có cảm giác rất tối thiểu. Giao diện người dùng có chức năng nhưng đơn giản, và bảng điều khiển thiếu đi sự tinh tế và chiều sâu mà bạn nhận được từ hai mô hình kia.

Ngoài ra, nó cũng không thêm nút để xem phân tích ngay trong bảng hoạt động, không giống như hai mô hình còn lại.

Bạn có thể tìm mã mà nó đã tạo tại đây: Gemini 3 Pro Code

  • Chi phí: Thấp, với việc sử dụng cache đáng kể
  • Thời lượng: ~5 phút (thời gian API)
  • Thay đổi mã: +351 dòng, -3 dòng
  • Sử dụng Token:
    • Đầu vào: ~67k
    • Đầu ra: ~7.1k
    • Tiết kiệm: ~85%+ token đầu vào được phục vụ từ cache

Nhìn chung, Gemini 3 Pro vẫn hiệu quả và đáng tin cậy, nhưng trong một so sánh như thế này, chỉ hiệu quả thôi là chưa đủ.

Kết Luận

Ít nhất từ thử nghiệm này, chúng ta có thể kết luận rằng các mô hình AI hiện nay đã khá có khả năng thực hiện một công việc phức tạp tương đối trong một lần chạy, ít nhất là theo những gì chúng tôi đã kiểm tra.

Tuy nhiên, vẫn có những lúc các mô hình mắc lỗi nghiêm trọng đến mức nếu chúng tôi phải tự mình khắc phục từng vấn đề một, sẽ mất gần bằng thời gian để xây dựng lại từ đầu. Điều này cho thấy sự cần thiết của sự giám sát và tinh chỉnh của con người.

[![Image 7: dog sideeye gif](https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fkxv5kpey20fduyyqrh3e.gif)](https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fkxv5kpey20fduyyqrh3e.gif)

Nếu so sánh kết quả giữa các mô hình, Opus 4.5 chắc chắn giành lấy vương miện. Tuy nhiên, chúng tôi vẫn không nghĩ rằng chúng ta đã đến gần mức độ có thể hoàn toàn dựa vào chúng cho các dự án sản xuất lớn, thực tế. Những cải tiến gần đây thực sự là đáng kinh ngạc, nhưng kết quả vẫn chưa hoàn toàn chứng minh điều đó.

Hiện tại, chúng tôi cho rằng các mô hình này rất tuyệt vời cho việc tái cấu trúc mã (refactoring), lập kế hoạch và giúp bạn làm việc nhanh hơn. Nhưng nếu bạn chỉ dựa vào mã được tạo ra của chúng, cơ sở mã sẽ không thể duy trì về lâu dài.

Chúng tôi không xem bất kỳ mô hình gần đây nào là “sử dụng và triển khai” cho “sản xuất”, trong một dự án với hàng triệu dòng mã, ít nhất là không theo cách mọi người đang cường điệu hóa.

Hãy cho chúng tôi biết suy nghĩ của bạn trong phần bình luận bên dưới!

[![Image 8: shricodev image](https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Fuser%2Fprofile_image%2F1127015%2F1c5e48a2-f602-4e7d-8312-3c0322d155c6.jpg)](https://dev.to/shricodev)

Shrijal Acharya

Full Stack SDE • Người đóng góp mã nguồn mở • Cộng tác viên @Oppia • Liên hệ để hợp tác

Chỉ mục