Sự xuất hiện gần đây của Grok 4, được mệnh danh là mô hình AI thông minh nhất, đã đặt ra một câu hỏi lớn: liệu mô hình này có thực sự vượt trội trong lĩnh vực lập trình và liệu nó có thể vượt qua những “ông lớn” hiện tại như Claude Opus 4 từ Anthropic và Gemini 2.5 Pro của Google? Với khả năng suy luận được quảng bá rầm rộ, chúng ta cần một cái nhìn khách quan về năng lực viết mã AI của Grok 4.
Trong bài viết này, chúng ta sẽ làm rõ vấn đề này bằng cách thực hiện các thử nghiệm thực tế. Chúng tôi sẽ kiểm tra ba mô hình trí tuệ nhân tạo hàng đầu này trong một kịch bản phát triển ứng dụng thực tế và một bài kiểm tra tạo hoạt hình nhanh chóng để xem AI nào thực sự xuất sắc trong vai trò là “trợ lý lập trình” của bạn.
Mục lục
Tổng quan về các “Ông Lớn” AI hiện nay
Grok 4: Siêu trí tuệ mới nổi từ xAI
Grok 4 là mô hình suy luận mới nhất từ xAI và theo thông tin từ nhà phát triển, đây là mô hình AI thông minh nhất cho đến nay. Grok 4 không chỉ cạnh tranh với các mô hình AI khác mà còn được tuyên bố là ngang tầm với khả năng suy luận của con người.
- Đây là mô hình đầu tiên đạt điểm số trên 15% trên bảng điểm ARC-AGI, một tiêu chuẩn được thiết kế để đo lường tiến bộ hướng tới trí tuệ tổng hợp nhân tạo (AGI) – một dạng AI có khả năng suy luận chung tương đương não bộ con người.
- Elon Musk đã tuyên bố: “Về các câu hỏi học thuật, Grok 4 tốt hơn trình độ Tiến sĩ trong mọi môn học. Không có ngoại lệ.”

Về cửa sổ ngữ cảnh, Grok 4 có 256k token, một con số khá khiêm tốn so với Gemini 2.5 Pro (1M token) nhưng nhỉnh hơn chút so với dòng Claude 4 (khoảng 200k token). Đối với các tác vụ lập trình, Musk đã khẳng định rằng bạn có thể dán toàn bộ mã nguồn vào một truy vấn và Grok 4 sẽ sửa lỗi hoặc thêm tính năng một cách dễ dàng, thậm chí được cho là hoạt động “tốt hơn Cursor”.
Về giá cả, Grok 4 có mức phí tương tự Grok 3, khoảng 3 USD cho mỗi triệu token đầu vào (gấp đôi sau 128k) và 15 USD cho mỗi triệu token đầu ra (gấp đôi sau 128k).
Kết quả benchmark nổi bật của Grok 4:
- Đạt điểm cao kỷ lục 88% trong GPQA Diamond, vượt qua Gemini 2.5 Pro (84%).
- Đạt mức cao mới 24% trong Humanity Last Exam, đánh bại điểm số trước đó của Gemini 2.5 Pro (21%).
- Đồng sở hữu điểm cao nhất cho MMLU-Pro và AIME 2024, lần lượt là 87% và 94%.
- Vượt trội hơn tất cả các mô hình trong các bài kiểm tra lập trình, đứng đầu LiveCodeBench với 79.4%, trong khi điểm số tốt thứ hai là 75.8%.

Nhìn chung, Grok 4 hiện đang dẫn đầu hầu hết các bảng xếp hạng benchmark. Mô hình này có sẵn thông qua API và gói đăng ký trả phí. Bạn có thể truy cập Grok 4 tiêu chuẩn với SuperGrok giá 30 USD/tháng hoặc 300 USD/năm. Để tiếp cận Grok 4 Heavy, bạn cần đăng ký gói SuperGrok Heavy với giá 300 USD/tháng hoặc 3000 USD/năm.
Claude Opus 4 và Gemini 2.5 Pro: Những đối thủ đáng gờm
Trước khi Grok 4 xuất hiện, Claude Opus 4 từ Anthropic và Gemini 2.5 Pro của Google đã là những cái tên hàng đầu trong giới phát triển AI. Claude Opus 4 nổi tiếng với khả năng hiểu ngữ cảnh dài và tạo ra văn bản phức tạp, trong khi Gemini 2.5 Pro được biết đến với cửa sổ ngữ cảnh khổng lồ và hiệu suất mạnh mẽ trên nhiều loại tác vụ. Cả hai đều là những mô hình AI được cộng đồng lập trình viên tin dùng cho các dự án và giải quyết vấn đề mã nguồn.
Đi sâu vào hiệu suất lập trình: AI nào xuất sắc nhất?
Để có cái nhìn khách quan nhất về khả năng lập trình AI của Grok 4 so với các đối thủ, chúng tôi đã tiến hành hai thử nghiệm chính: một thử nghiệm sao chép thiết kế giao diện thực tế và một thử nghiệm tạo hoạt hình phức tạp.
Thử nghiệm 1: Sao chép thiết kế Figma sang Next.js
Mục tiêu của thử nghiệm này là yêu cầu ba mô hình AI tái tạo một thiết kế Figma phức tạp thành ứng dụng Next.js. Chúng tôi mong muốn xem mô hình nào có thể tạo ra mã nguồn chính xác và giống với thiết kế gốc nhất.

Yêu cầu (Prompt): Tạo bản sao thiết kế Figma sử dụng thiết kế Figma đã cho làm tham chiếu: <URL>. Cố gắng tạo ra càng giống càng tốt.
Grok 4: Kết quả bất ngờ từ “kẻ thông minh nhất”

Grok 4 đã tạo ra một phản hồi ấn tượng. Giao diện trông tuyệt vời, mọi thứ đều đúng chỗ, ngoại trừ một vài chi tiết nhỏ như vị trí các biểu tượng chưa thực sự hoàn hảo. Văn bản và các yếu tố khác đều chính xác. Tuy nhiên, nó mất khoảng 4 phút để hoàn thành, lâu nhất so với hai mô hình còn lại. Về khả năng chọn công cụ, Grok 4 đạt độ chính xác 99%. Mã nguồn được tạo ra khá tốt nhưng chưa được phân chia thành nhiều thành phần nhỏ, khiến việc quản lý có thể kém tối ưu.
Mã nguồn mẫu từ Grok 4 (được tối giản hóa):
// Ví dụ về cấu trúc mã JSX & Tailwind CSS từ Grok 4
import React from 'react';
const Dashboard = () => {
return (
<div className="flex h-screen bg-gray-100">
<aside className="w-64 bg-white shadow-md p-4">
<h1 className="text-2xl font-bold mb-6">Your App</h1>
<ul>
<li className="mb-4"><a href="#" className="flex items-center text-gray-700 hover:text-blue-500"><span>Dashboard</span></a></li>
<li className="mb-4"><a href="#" className="flex items-center text-gray-700 hover:text-blue-500"><span>Settings</span></a></li>
</ul>
</aside>
<main className="flex-1 p-8">
<h2 className="text-3xl font-semibold mb-6">Welcome!</h2>
<div className="grid grid-cols-1 md:grid-cols-2 lg:grid-cols-3 gap-6">
{/* Các card dữ liệu */}
</div>
</main>
</div>
);
};
export default Dashboard;
Claude Opus 4: Đối thủ “cân tài cân sức”

Với Claude Opus 4, giao diện trông có vẻ nhỉnh hơn một chút so với Grok 4, đặc biệt là về vị trí các biểu tượng. Mặc dù vẫn có một số điểm không nhất quán nhỏ, nhưng tổng thể đây là bản sao gần nhất với thiết kế Figma gốc. Thời gian thực hiện tương đương Grok 4, và mã nguồn cũng được đóng gói trong một tệp duy nhất, chưa được phân tách thành các thành phần nhỏ, cho thấy sự tương đồng về cách tiếp cận.
Mã nguồn mẫu từ Claude Opus 4:
// Ví dụ về cấu trúc mã JSX & Tailwind CSS từ Claude Opus 4
import React from 'react';
const MainLayout = () => {
return (
<div className="flex min-h-screen bg-gray-50">
<nav className="w-60 bg-white shadow-sm p-4">
<div className="font-bold text-lg mb-8">My Company</div>
<ul className="space-y-4">
<li><a href="#" className="text-gray-800 hover:text-indigo-600 flex items-center">
<svg /* icon */ ></svg> Dashboard
</a></li>
<li><a href="#" className="text-gray-800 hover:text-indigo-600 flex items-center">
<svg /* icon */ ></svg> Analytics
</a></li>
</ul>
</nav>
<div className="flex-1 p-8">
<header className="flex justify-between items-center mb-6">
<h1 className="text-2xl font-semibold">Overview</h1>
<button className="bg-blue-500 text-white px-4 py-2 rounded">Add New</button>
</header>
{/* Nội dung chính */}
</div>
</div>
);
};
export default MainLayout;
Gemini 2.5 Pro: Khi kỳ vọng không thành hiện thực

Đây là bất ngờ lớn nhất của thử nghiệm. Gemini 2.5 Pro, mô hình vốn được đánh giá cao, lại không thể tạo ra bản sao thiết kế một cách chính xác. Ngoài một vài biểu tượng và văn bản, hầu hết các yếu tố giao diện đều không được triển khai đúng. Phản hồi tệ đến mức chúng tôi đã thử lại nhiều lần nhưng kết quả vẫn tương tự. Mặc dù mã nguồn của Gemini 2.5 Pro được tổ chức tốt nhất, phân chia thành các thành phần nhỏ, nhưng sản phẩm cuối cùng lại không đạt yêu cầu. Điều này cho thấy rằng việc tổ chức mã tốt không thể bù đắp cho khả năng hiểu và tái tạo thiết kế kém hiệu quả trong trường hợp này.
Mã nguồn mẫu từ Gemini 2.5 Pro (cấu trúc tốt nhưng kết quả giao diện kém):
// Ví dụ về cấu trúc mã JSX & Tailwind CSS từ Gemini 2.5 Pro
import React from 'react';
import Sidebar from './components/Sidebar';
import Header from './components/Header';
import DashboardCards from './components/DashboardCards';
const App = () => {
return (
<div className="flex min-h-screen bg-gray-100">
<Sidebar />
<div className="flex-1 flex flex-col">
<Header />
<main className="flex-1 p-6">
<DashboardCards />
{/* ... các phần khác */}
</main>
</div>
</div>
);
};
export default App;
// Ví dụ component Sidebar.js
// import React from 'react';
// const Sidebar = () => { ... }
// export default Sidebar;
Tóm tắt kết quả thử nghiệm Figma
- Grok 4 và Claude Opus 4 đều làm tốt trong việc tái tạo hình ảnh thiết kế, nhưng mã nguồn lại chưa được tối ưu hóa về cấu trúc thành phần.
- Gemini 2.5 Pro gây thất vọng về sản phẩm trực quan cuối cùng, mặc dù cấu trúc mã được tổ chức khá tốt.
- Một điểm đáng chú ý là cả ba mô hình đều chỉ tập trung vào việc tạo ra UI mà không thêm bất kỳ logic chức năng nào (ví dụ: các hàm xử lý sự kiện cho các nút hoặc mục thanh bên), chỉ đơn thuần là JSX với Tailwind CSS.
Thử nghiệm 2: Hoạt hình Hố Đen 3D với Three.js
Trong thử nghiệm thứ hai, chúng tôi yêu cầu các mô hình tạo một hoạt hình phức tạp: mô phỏng hố đen 3D bằng Three.js và shaders trong một tệp HTML duy nhất. Mục tiêu là xem mô hình nào có thể tạo ra hoạt hình đẹp, chính xác và mượt mà nhất.
Yêu cầu (Prompt): Xây dựng một hình ảnh hóa Hố Đen 3D với Three.js và shaders trong một tệp HTML duy nhất. Cố gắng làm cho nó đẹp và chính xác nhất có thể.
Grok 4: Màn trình diễn ấn tượng
Kết quả từ Grok 4 thực sự tuyệt vời. Hoạt hình rất mượt mà, cảm giác chân thực và mã nguồn được tổ chức tốt, dễ hiểu. Ban đầu, có một số vấn đề về CORS với Three.js, nhưng Grok 4 đã nhanh chóng khắc phục sau khi được yêu cầu, mang lại một hoạt hình hố đen tuyệt đẹp.
Mã nguồn mẫu của Grok 4 cho hoạt hình hố đen:
<!-- Ví dụ về cấu trúc mã HTML/JavaScript cho Three.js của Grok 4 -->
<!DOCTYPE html>
<html>
<head>
<title>Black Hole Animation - Grok 4</title>
<style>body { margin: 0; overflow: hidden; }</style>
</head>
<body>
<script src="https://cdnjs.cloudflare.com/ajax/libs/three.js/r128/three.min.js"></script>
<script>
// Khởi tạo Scene, Camera, Renderer
const scene = new THREE.Scene();
const camera = new THREE.PerspectiveCamera(75, window.innerWidth / window.innerHeight, 0.1, 1000);
const renderer = new THREE.WebGLRenderer();
renderer.setSize(window.innerWidth, window.innerHeight);
document.body.appendChild(renderer.domElement);
// Tạo hình học và vật liệu cho hố đen với shader
const geometry = new THREE.SphereGeometry(1, 64, 64);
const material = new THREE.ShaderMaterial({
uniforms: {
time: { value: 0.0 }
},
vertexShader: `
void main() {
gl_Position = projectionMatrix * modelViewMatrix * vec4(position, 1.0);
}
`,
fragmentShader: `
uniform float time;
void main() {
vec2 uv = gl_FragCoord.xy / vec2(800.0, 600.0); // Kích thước màn hình ví dụ
vec3 color = vec3(0.0);
// Logic shader phức tạp cho hiệu ứng hố đen
color.r = sin(uv.x * 10.0 + time);
color.g = cos(uv.y * 10.0 + time);
color.b = 0.5;
gl_FragColor = vec4(color, 1.0);
}
`
});
const blackHole = new THREE.Mesh(geometry, material);
scene.add(blackHole);
camera.position.z = 5;
// Vòng lặp render
function animate() {
requestAnimationFrame(animate);
material.uniforms.time.value += 0.01;
blackHole.rotation.x += 0.005;
blackHole.rotation.y += 0.005;
renderer.render(scene, camera);
}
animate();
</script>
</body>
</html>
Claude Opus 4: Kết quả tương đồng, có thêm tiện ích
Đáng ngạc nhiên, Claude Opus 4 cũng cho ra kết quả tương tự với chất lượng cao. Điểm khác biệt duy nhất là nó tự động thêm một số tùy chọn để sửa đổi hoạt hình (ví dụ: điều khiển quỹ đạo), mặc dù điều này không được yêu cầu trong prompt. Mặc dù không được yêu cầu, việc bổ sung các điều khiển này là một điểm cộng. Cả Grok 4 và Claude Opus 4 đều thực hiện xuất sắc trong thử nghiệm này.
Mã nguồn mẫu của Claude Opus 4 cho hoạt hình hố đen:
<!-- Ví dụ về cấu trúc mã HTML/JavaScript cho Three.js của Claude Opus 4 -->
<!DOCTYPE html>
<html>
<head>
<title>Black Hole Visualization - Claude Opus 4</title>
<style>body { margin: 0; overflow: hidden; }</style>
</head>
<body>
<script src="https://cdnjs.cloudflare.com/ajax/libs/three.js/r128/three.min.js"></script>
<script src="https://unpkg.com/[email protected]/index.js"></script> <!-- Thêm OrbitControls -->
<script>
const scene = new THREE.Scene();
const camera = new THREE.PerspectiveCamera(75, window.innerWidth / window.innerHeight, 0.1, 1000);
const renderer = new THREE.WebGLRenderer();
renderer.setSize(window.innerWidth, window.innerHeight);
document.body.appendChild(renderer.domElement);
const controls = new OrbitControls(camera, renderer.domElement); <!-- Tự động thêm điều khiển -->
camera.position.z = 3;
const uniforms = {
time: { value: 0.0 },
resolution: { value: new THREE.Vector2() }
};
uniforms.resolution.value.x = window.innerWidth;
uniforms.resolution.value.y = window.innerHeight;
const material = new THREE.ShaderMaterial({
uniforms: uniforms,
vertexShader: `void main() { gl_Position = projectionMatrix * modelViewMatrix * vec4(position, 1.0); }`,
fragmentShader: `
uniform float time;
uniform vec2 resolution;
void main() {
vec2 uv = gl_FragCoord.xy / resolution.xy;
vec3 color = vec3(0.0);
// Shader logic for black hole with more parameters
color.b = (sin(uv.x * 20.0 + time) + 1.0) / 2.0;
color.g = (cos(uv.y * 15.0 + time) + 1.0) / 2.0;
gl_FragColor = vec4(color, 1.0);
}
`
});
const blackHole = new THREE.Mesh(new THREE.SphereGeometry(1.5, 64, 64), material);
scene.add(blackHole);
function animate() {
requestAnimationFrame(animate);
uniforms.time.value += 0.01;
controls.update(); <!-- Cập nhật điều khiển -->
renderer.render(scene, camera);
}
animate();
</script>
</body>
</html>
Gemini 2.5 Pro: Vẫn tốt, nhưng kém nổi bật
Với Gemini 2.5 Pro, hoạt hình hố đen vẫn hoạt động tốt, bao gồm cả các điều khiển quỹ đạo. Tuy nhiên, so với hai mô hình còn lại, hoạt hình này có cảm giác kém mượt mà và không sắc nét bằng. Mặc dù không tệ, nhưng nó không đạt được độ ấn tượng về mặt thị giác như Grok 4 và Claude Opus 4.
Mã nguồn mẫu của Gemini 2.5 Pro cho hoạt hình hố đen:
<!-- Ví dụ về cấu trúc mã HTML/JavaScript cho Three.js của Gemini 2.5 Pro -->
<!DOCTYPE html>
<html>
<head>
<title>Basic Black Hole - Gemini 2.5 Pro</title>
<style>body { margin: 0; overflow: hidden; }</style>
</head>
<body>
<script src="https://cdnjs.cloudflare.com/ajax/libs/three.js/r128/three.min.js"></script>
<script src="https://cdn.jsdelivr.net/npm/[email protected]/index.min.js"></script>
<script>
const scene = new THREE.Scene();
const camera = new THREE.PerspectiveCamera(70, window.innerWidth / window.innerHeight, 0.1, 1000);
const renderer = new THREE.WebGLRenderer();
renderer.setSize(window.innerWidth, window.innerHeight);
document.body.appendChild(renderer.domElement);
const controls = new OrbitControls(camera, renderer.domElement);
camera.position.z = 4;
const geometry = new THREE.SphereGeometry(1.2, 32, 32);
const material = new THREE.MeshBasicMaterial({ color: 0x000000 }); // Màu đen cơ bản
const blackHole = new THREE.Mesh(geometry, material);
scene.add(blackHole);
// Tạo một vòng sáng đơn giản xung quanh hố đen
const ringGeometry = new THREE.TorusGeometry(1.5, 0.1, 16, 100);
const ringMaterial = new THREE.MeshBasicMaterial({ color: 0xFFD700 }); // Màu vàng
const ring = new THREE.Mesh(ringGeometry, ringMaterial);
scene.add(ring);
ring.rotation.x = Math.PI / 2;
function animate() {
requestAnimationFrame(animate);
blackHole.rotation.y += 0.003;
ring.rotation.z += 0.005;
controls.update();
renderer.render(scene, camera);
}
animate();
</script>
</body>
</html>
Kết luận: AI nào thực sự thống trị lĩnh vực lập trình?
Qua các thử nghiệm hiệu suất lập trình AI này, chúng tôi không tìm thấy sự khác biệt đáng kể giữa Grok 4 và Claude Opus 4. Thậm chí, đôi khi Claude Opus 4 có phần nhỉnh hơn một chút. Cả hai đều thể hiện năng lực mạnh mẽ trong việc tạo mã và xử lý các tác vụ phức tạp.
Tuy nhiên, nếu bạn đang tìm kiếm một mô hình AI đa năng và thông minh hàng đầu, Grok 4 chắc chắn là một lựa chọn không thể bỏ qua cho các tác vụ lập trình. Nó là một mô hình xuất sắc tổng thể, và với hiệu suất như vậy trong lập trình, cùng với mức giá cạnh tranh so với Claude Opus 4, Grok 4 mang lại giá trị đáng cân nhắc.
Mặc dù đây chỉ là một vài thử nghiệm AI lập trình tương đối ngắn, chúng đã cung cấp một cái nhìn sâu sắc về sức mạnh của Grok 4 trong lĩnh vực này.
Chúng tôi cũng đã thực hiện một bài kiểm tra so sánh Claude Opus 4 với Gemini 2.5 Pro trong lập trình trước đây. Nếu bạn muốn tìm hiểu thêm, hãy xem bài viết này:
Bạn có kinh nghiệm gì với Grok 4 chưa? Liệu bạn có sẵn sàng chuyển đổi từ mô hình AI hiện tại của mình sang Grok 4 cho các tác vụ xử lý mã không? Hãy chia sẻ suy nghĩ của bạn trong phần bình luận bên dưới!