So Sánh Khả Năng Lập Trình: Claude Opus 4 Đối Đầu Gemini 2.5 Pro và OpenAI o3

Thị trường mô hình AI liên tục chứng kiến sự ra đời của những sản phẩm đột phá mới. Gần đây nhất, Anthropic đã giới thiệu hai mô hình AI mới là Claude Opus 4 và Claude Sonnet 4 vào ngày 22 tháng 5. Với điểm chuẩn kỹ sư phần mềm (SWE) tương đồng giữa hai mô hình này, bài viết này sẽ tập trung vào đánh giá khả năng vượt trội của Claude Opus 4, đặc biệt trong lĩnh vực lập trình, khi đặt lên bàn cân với các đối thủ sừng sỏ khác là Gemini 2.5 ProOpenAI o3.

Claude Opus 4: Liệu Có Phải Là Cơn Địa Chấn Mới Trong Lập Trình?

Anthropic tự tin tuyên bố Claude Opus 4 là mô hình AI tốt nhất hiện tại cho công việc lập trình. Thậm chí, họ còn đưa ra khả năng mô hình này có thể tự động làm việc trong suốt một ngày làm việc (khoảng bảy giờ). Đây là một tuyên bố đầy tham vọng và khiến nhiều người phải suy ngẫm về mức độ tự chủ ngày càng tăng của AI.

Với cửa sổ ngữ cảnh (context window) lên tới 200K token, Claude Opus 4 được kỳ vọng sẽ xử lý tốt các tác vụ mã hóa phức tạp, dù con số này có thể không bằng một số đối thủ. Điều đáng chú ý là điểm số ấn tượng của nó trên SWE-bench: 72.5% và có thể đạt tới 79.4% với tính toán song song trong thời gian thử nghiệm. Con số này cho thấy sự cải thiện đáng kể, lên tới hơn 10% so với mô hình tiền nhiệm của Anthropic là Claude 3.7 Sonnet.

Bên cạnh đó, Anthropic cũng nhấn mạnh rằng dòng Claude 4 mới có khả năng giảm tới 65% việc sử dụng các phương pháp “hacky” hoặc “đường tắt” trong mã nguồn được tạo ra, đảm bảo chất lượng và tính bền vững cao hơn. Khả năng tự động tạo các Pull Request (PR), commit code, và thậm chí xử lý phản hồi trong thời gian thực thông qua tích hợp GitHub Actions là minh chứng cho tiềm năng tự chủ của Claude Opus 4 trong quy trình phát triển phần mềm.

So Sánh Hiệu Suất Lập Trình Thực Tế

Để đánh giá công bằng khả năng mã hóa của ba “quái vật” AI này (Claude Opus 4 với SWE 72.5%, Gemini 2.5 Pro với SWE 63.2%, và OpenAI o3 với SWE 69.1%), chúng ta sẽ xem xét cách chúng giải quyết một số bài toán lập trình khó, không phải những câu hỏi dễ dàng.

1. Hiệu Ứng Chuyển Động Hạt (Particles Morph)

Thử thách đầu tiên là tạo ra hiệu ứng các hạt chuyển động và biến đổi hình dạng một cách mượt mà từ hình này sang hình khác.

  • Claude Opus 4: Đã tạo ra mã nguồn chỉ trong khoảng 100 giây (dưới 2 phút). Kết quả đầu ra cực kỳ ấn tượng, các hạt chuyển động và biến hình đúng như mong đợi, bắt đầu chuyển đổi ngay từ hình dạng hiện tại chứ không cần về một điểm trung gian. Dù hình dạng cuối có thể chưa đạt độ hoàn hảo 100%, nhưng cách triển khai tổng thể là cực kỳ vững chắc. Mã nguồn có cấu trúc rõ ràng.
  • Gemini 2.5 Pro: Kết quả chấp nhận được nhưng không xuất sắc như Claude. Các hình dạng được tạo ra trông kém chất lượng, giao diện người dùng (UI) cũng không thực sự bắt mắt. Ví dụ về hình con chim trông khá tệ. Hiệu suất này có phần hơi thất vọng so với kỳ vọng vào một mô hình mạnh như Gemini 2.5 Pro, nhưng có lẽ điểm SWE bench thấp hơn là một phần lý do.
  • OpenAI o3: Kết quả tệ hơn cả Gemini 2.5 Pro. Điểm yếu lớn nhất là các hạt không chuyển đổi trực tiếp từ hình dạng hiện tại; thay vào đó, chúng thu về hình dạng cầu trước rồi mới biến đổi sang hình dạng đích. Điều này đi ngược lại yêu cầu ban đầu và thể hiện sự thiếu tinh tế trong cách tiếp cận bài toán.

2. Xây Dựng Game Mario 2D Đơn Giản

Tiếp theo là thử thách tạo một game Mario 2D cơ bản chỉ bằng HTML, CSS, và JavaScript thuần túy.

  • Claude Opus 4: Hoàn thành xuất sắc trong vài giây. Việc triển khai một game Mario 2D, vốn là một tác vụ khó, nhanh chóng như vậy là rất ấn tượng. Giao diện game và cảm giác tổng thể rất đẹp mắt và chuyên nghiệp. Đây có thể là điểm khởi đầu tuyệt vời cho những ai muốn tự xây dựng một game Mario bằng JavaScript thuần. Mã nguồn có tổ chức.
  • Gemini 2.5 Pro: Game có hoạt động, nhưng rất tối giản và còn lỗi. Ví dụ, bộ đếm thời gian ở góc trên bên phải không chạy đúng. Dù có chức năng, sản phẩm cuối cùng không đạt đến mức chất lượng mong đợi từ một mô hình mạnh.
  • OpenAI o3: Gần như không thành công. Kết quả chỉ giống như một bản phác thảo (prototype) không hoàn chỉnh, thậm chí không phải là một game hoàn chỉnh có thể chơi được. Có rất nhiều lỗi và trò chơi không có điểm kết thúc. Đây là một kết quả đáng thất vọng.

3. Phát Triển Game Tetris

Thử thách thứ ba là tạo game Tetris, bao gồm cả các tính năng tùy chọn như mảnh bóng (ghost piece), lưu điểm cao vào bộ nhớ cục bộ (local storage).

  • Claude Opus 4: Đã tạo ra một game Tetris hoạt động hoàn hảo bằng HTML/CSS/JS thuần túy trong thời gian rất ngắn. Mô hình đã triển khai đầy đủ tất cả các tính năng được yêu cầu, bao gồm cả các tính năng tùy chọn như mảnh bóng và lưu điểm cao. Thậm chí còn bổ sung nhạc nền và hiển thị ba mảnh tiếp theo, thể hiện sự chủ động và hoàn thiện cao. Mã nguồn đầy đủ và hoạt động tốt.
  • Gemini 2.5 Pro: Cũng cho kết quả tốt và game hoạt động mượt mà như Claude Opus 4. Giao diện và trải nghiệm nhìn chung cũng khá tốt. Gemini đã đưa ra một giải pháp tốt cho bài toán này.
  • OpenAI o3: Kết quả thú vị nhưng có lỗi nghiêm trọng. Các khối Tetris rơi và hoạt động bình thường, nhưng game không có điểm kết thúc. Khi các khối chạm đỉnh, đáng lẽ game phải dừng lại, nhưng nó chỉ bị kẹt vô thời hạn. Đây là một lỗi cơ bản, dù có thể sửa được bằng prompt bổ sung, nhưng cho thấy sự thiếu hoàn thiện trong lần thử đầu tiên.

4. Xây Dựng Game Cờ Vua

Thử thách cuối cùng và có lẽ là khó nhất là tạo game Cờ Vua.

  • Claude Opus 4: Tạo ra một game Cờ Vua hoàn chỉnh từ đầu mà không sử dụng bất kỳ thư viện bên ngoài nào như Chess.js. Đây là một thành tích phi thường. Game hoạt động tốt, tính toán nước đi (dù còn thiếu một số nước đặc biệt như “en passant”) và ghi lại lịch sử nước đi một cách chính xác. Khả năng tự triển khai logic phức tạp mà không cần thư viện là điểm cộng cực lớn. Mã nguồn JavaScript được viết để xử lý toàn bộ logic cờ vua.
  • Gemini 2.5 Pro: Cũng chọn cách tự triển khai mà không dùng thư viện. Đã cố gắng bao gồm cả các nước đi đặc biệt. Tuy nhiên, game có vẻ “vô hồn”: các quân cờ chỉ hiển thị mà không di chuyển. Dù đây có vẻ là một lỗi nhỏ, mô hình đã không khắc phục được nó ngay cả sau khi nhận prompt bổ sung yêu cầu sửa lỗi di chuyển.
  • OpenAI o3: Đi theo hướng thực tế hơn bằng cách sử dụng thư viện Chess.js. Tuy nhiên, việc triển khai gặp vấn đề: có vẻ như import thư viện bên ngoài không hoạt động đúng, dẫn đến đối tượng Chess không được định nghĩa (undefined) khi cố gắng sử dụng. Điều này khiến game không thể hoạt động. Việc dựa vào thư viện nhưng lại không sử dụng được nó là một điểm yếu lớn.

Kết Luận: Ai Là Nhà Vô Địch Lập Trình?

Qua các bài kiểm tra khắc nghiệt trên, có thể thấy rõ một mô hình đã vượt trội hơn hẳn các đối thủ, đó chính là Claude Opus 4.

Được đầu tư bởi Amazon, Anthropic thực sự đang tạo ra những điều kỳ diệu với dòng mô hình Claude. Dù có cửa sổ ngữ cảnh nhỏ hơn so với Gemini 2.5 Pro và OpenAI o3 trong bài test này, Claude Opus 4 vẫn chứng tỏ khả năng lập trình vượt trội, tạo ra mã nguồn sạch, hoạt động tốt và đáp ứng đúng yêu cầu, ngay cả với các tác vụ phức tạp như xây dựng game từ đầu mà không dùng thư viện.

Claude Opus 4 không chỉ cho thấy hiệu suất cao trên các điểm chuẩn lý thuyết mà còn chứng minh khả năng ứng dụng thực tế ấn tượng trong việc tạo ra mã nguồn chất lượng cao cho các dự án phức tạp. Sự tự chủ và khả năng giải quyết vấn đề của nó đã đặt ra một tiêu chuẩn mới cho các mô hình AI hỗ trợ lập trình.

Vậy, dựa trên kết quả so sánh này, bạn sẽ chọn mô hình nào làm trợ lý lập trình cho mình? Claude Opus 4 chắc chắn đang dẫn đầu cuộc đua này.

Chỉ mục