Anthropic vừa chính thức phát hành Claude Opus 4.7, không chỉ là một bản vá lỗi nhỏ hay một bản cập nhật “cải thiện trải nghiệm”. Các điểm chuẩn của phiên bản này thực sự gây choáng ngợp: độ nhạy thị giác tăng vọt lên 98.5% (từ 54.5%), độ phân giải đầu vào hình ảnh cao gấp 3 lần, giảm 21% lỗi suy luận tài liệu và khả năng giải quyết các tác vụ lập trình mà cả Opus 4.6 lẫn Sonnet 4.6 đều bó tay. Sau thời gian thử nghiệm thực tế trong các dự án của riêng tôi, đây là một trong số ít bản cập nhật mô hình khiến tôi phải dừng lại và suy nghĩ lại toàn bộ quy trình làm việc của mình.
Nếu bạn đang xây dựng bất kỳ hệ thống nào với Claude – từ các hệ thống tác tử tự động, trợ lý lập trình cho đến các công cụ xử lý tài liệu – bạn cần nắm rõ những thay đổi thực sự đã diễn ra và ý nghĩa của chúng đối với hệ thống công nghệ của bạn.
Mục lục
Mục Lục
- Những Cải Tiến Thực Sự Được Ra Mắt
- Nâng Cấp Thị Giác Không Chỉ Là Bước Cải Tiến Nhỏ
- Lập Trình: Con Số và Thực Tế Ứng Dụng
- Cấp Độ Nỗ Lực Mới: xhigh
- Khả Năng Tuân Thủ Hướng Dẫn Trở Nên Nghiêm Ngặt Hơn
- Những Điều Có Thể Gây Ra Sự Cố (Hoặc Sẽ Gây Sự Cố)
- Tích Hợp Claude Code
- Giá Cả và Khả Dụng
- Bạn Có Nên Chuyển Đổi Ngay Hôm Nay?
Những Cải Tiến Thực Sự Được Ra Mắt
Dưới đây là những con số nổi bật, chúng kể một câu chuyện đầy ấn tượng:
| Chỉ Số | Opus 4.6 | Opus 4.7 | Thay Đổi |
|---|---|---|---|
| Độ nhạy thị giác | 54.5% | 98.5% | +81% |
| Độ phân giải hình ảnh | ~1.25 MP | ~3.75 MP | 3x |
| Lỗi suy luận tài liệu | Chuẩn cơ bản | -21% | Đáng kể |
| Quy trình đa bước phức tạp | Chuẩn cơ bản | +14% | |
| Độ chính xác gọi công cụ | Chuẩn cơ bản | +10-15% | |
| Điểm chuẩn lập trình nội bộ (93 tác vụ) | Chuẩn cơ bản | +13% |
Điều đáng chú ý là mức giá vẫn giữ nguyên: 5 USD/triệu token đầu vào và 25 USD/triệu token đầu ra. Anthropic đã không tăng giá, điều này có nghĩa là tỷ lệ chi phí trên khả năng đã được cải thiện đáng kể.
Một lưu ý nhỏ: token đầu vào giờ đây có thể tốn hơn 1.0-1.35 lần mỗi yêu cầu do những thay đổi trong bộ mã hóa (tokenizer). Vì vậy, hóa đơn thực tế của bạn có thể tăng nhẹ dù giá mỗi token vẫn giữ nguyên. Chúng ta sẽ tìm hiểu thêm về điều này sau.
Nâng Cấp Thị Giác Không Chỉ Là Bước Cải Tiến Nhỏ
Đây là cải tiến thực sự khiến tôi ngạc nhiên. Từ 54.5% lên 98.5% độ nhạy thị giác – đây không phải là một cải thiện nhỏ mà là một khả năng hoàn toàn khác biệt.
Các mô hình Claude trước đây đạt tối đa khoảng 1.25 megapixel. Opus 4.7 xử lý hình ảnh lên đến 2,576 pixel ở cạnh dài, tương đương khoảng 3.75 megapixel. Trong thực tế, điều này có nghĩa là nó có thể đọc chính xác các ảnh chụp màn hình dày đặc thông tin, sơ đồ kỹ thuật và cấu trúc hóa học mà không bị “ảo giác” các đoạn văn bản nhỏ.
Tôi đã thử nghiệm với một số trường hợp:
import anthropic
import base64
client = anthropic.Anthropic()
# Đọc một ảnh chụp màn hình terminal dày đặc thông tin
with open("terminal_screenshot.png", "rb") as f:
image_data = base64.b64encode(f.read()).decode("utf-8")
response = client.messages.create(
model="claude-opus-4-7-20260416",
max_tokens=4096,
messages=[
{
"role": "user",
"content": [
{
"type": "image",
"source": {
"type": "base64",
"media_type": "image/png",
"data": image_data,
},
},
{
"type": "text",
"text": "Đọc từng dòng của đầu ra terminal này. Liệt kê bất kỳ lỗi hoặc cảnh báo nào với số dòng chính xác của chúng."
}
],
}
],
)
print(response.content)
Với Opus 4.6, tôi chỉ có thể nhận được khoảng 70% số dòng chính xác trên một terminal bận rộn. Các kích thước font nhỏ thường là một trò may rủi. Opus 4.7 đã thực hiện hoàn hảo – mọi dòng, mã thoát chính xác, dấu thời gian đúng. Ngay cả văn bản màu xám mờ trong lời nhắc zsh của tôi cũng được đọc chính xác.
Nếu bạn đang xây dựng các tác tử sử dụng máy tính hoặc bất kỳ loại tự động hóa đọc màn hình nào, đây chính là bản cập nhật mà bạn đã chờ đợi. Giới hạn thị giác trước đây là một rào cản lớn cho các trường hợp sử dụng thực tế, nhưng giờ đây thì không còn nữa.
Lập Trình: Con Số và Thực Tế Ứng Dụng
Cải thiện 13% trên điểm chuẩn nội bộ 93 tác vụ của Anthropic. Nghe có vẻ khiêm tốn cho đến khi bạn đọc kỹ: “giải quyết các tác vụ mà cả Opus 4.6 lẫn Sonnet 4.6 đều không thể giải quyết.”
Đó mới là điểm thú vị. Nó không chỉ làm những điều tương tự nhanh hơn mà còn giải quyết những vấn đề mà các mô hình trước đây không thể chạm tới. Anthropic cũng tuyên bố khả năng giải quyết tác vụ sản xuất cao gấp 3 lần trên các điểm chuẩn kỹ thuật.
Những gì tôi nhận thấy trong thực tế:
- Đầu ra sạch hơn. Opus 4.6 có thói quen đóng gói mọi thứ trong các hàm trợ giúp và trừu tượng hóa mà bạn không yêu cầu. Opus 4.7 tạo ra mã sạch hơn đáng kể. Ít hàm bao bọc hơn, ít thiết kế quá mức hơn. Nếu bạn yêu cầu một hàm, bạn sẽ nhận được một hàm, không phải một hệ thống phân cấp lớp.
- Khôi phục lỗi tốt hơn. Khi một quy trình tác tử gặp trục trặc – đường dẫn tệp sai, phản hồi API không mong muốn, thiếu phụ thuộc – Opus 4.7 tốt hơn trong việc tự sửa lỗi mà không bị mất kiểm soát. Tôi đã chứng kiến nó tự phục hồi từ một giả định sai về lược đồ cơ sở dữ liệu, quay lại, đọc lại các tệp di chuyển và tự sửa lỗi. Opus 4.6 sẽ kiên quyết đi theo con đường sai lầm hơn.
- Giải quyết vấn đề sáng tạo hơn. Điều này khó để định lượng bằng điểm chuẩn nhưng tôi đã cảm nhận được. Khi tôi giao cho nó một tác vụ tái cấu trúc mở trên một codebase Go (viết lại lớp xử lý HTTP này để sử dụng generic một cách đúng đắn), cách tiếp cận mà nó đã thực hiện thực sự thông minh. Không chỉ đúng về mặt kỹ thuật, mà đó còn là loại giải pháp mà tôi sẽ thấy từ một kỹ sư cấp cao đã suy nghĩ về vấn đề trong 20 phút.
// Điều mà Opus 4.6 thường tạo ra - hoạt động, nhưng dài dòng
func GetUser(db *sql.DB) http.HandlerFunc {
return func(w http.ResponseWriter, r *http.Request) {
id := chi.URLParam(r, "id")
var user User
err := db.QueryRow("SELECT id, name, email FROM users WHERE id = $1", id).
Scan(&user.ID, &user.Name, &user.Email)
if err != nil {
http.Error(w, "not found", http.StatusNotFound)
return
}
json.NewEncoder(w).Encode(user)
}
}
// Điều mà Opus 4.7 đề xuất - handler generic với các kiểu lỗi phù hợp
func ResourceHandler[T any](fetch func(ctx context.Context, id string) (T, error)) http.HandlerFunc {
return func(w http.ResponseWriter, r *http.Request) {
id := chi.URLParam(r, "id")
resource, err := fetch(r.Context(), id)
if err != nil {
// kiểm tra xem lỗi có triển khai giao diện StatusError của chúng ta không
// thay vì giả định 404 cho mọi thứ
writeError(w, err)
return
}
w.Header().Set("Content-Type", "application/json")
json.NewEncoder(w).Encode(resource)
}
}
// Cách sử dụng trở nên cực kỳ đơn giản
mux.Get("/users/{id}", ResourceHandler(userStore.GetByID))
mux.Get("/posts/{id}", ResourceHandler(postStore.GetByID))
Mẫu handler generic đó chính xác là những gì tôi sẽ tự viết bằng tay. Việc xử lý lỗi với kiểm tra giao diện thay vì mặc định trả về lỗi 404 cho mọi trường hợp? Đó là chi tiết phân biệt giữa “đúng về mặt kỹ thuật” và “sẵn sàng cho sản xuất”.
Cấp Độ Nỗ Lực Mới: xhigh
Có một giá trị tham số `effort` mới: xhigh. Nó nằm giữa `high` và `max`.
response = client.messages.create(
model="claude-opus-4-7-20260416",
max_tokens=8192,
thinking={
"type": "enabled",
"budget_tokens": 8192,
"effort": "xhigh" # cấp độ mới
},
messages=[{"role": "user", "content": "..."}],
)
Anthropic khuyến nghị sử dụng `xhigh` làm điểm khởi đầu cho các trường hợp sử dụng lập trình và tác tử tự động. Ý tưởng là: `high` đôi khi không suy nghĩ đủ sâu cho các tác vụ phức tạp, nhưng `max` lại đốt token cho những vấn đề không cần quá nhiều lý luận. `xhigh` là điểm cân bằng lý tưởng.
Trong các thử nghiệm của tôi, sự khác biệt giữa `xhigh` và `high` rất đáng chú ý đối với các tác vụ tái cấu trúc đa tệp. Với các lời nhắc đơn giản như “viết cho tôi một hàm”, sự khác biệt là không đáng kể. Vì vậy, hãy sử dụng nó ở nơi cần thiết và đừng lãng phí token ở những nơi không cần.
Ngoài ra còn có một tính năng mới là ngân sách tác vụ (task budgets) đang ở phiên bản beta công khai – bạn có thể hướng dẫn mô hình phân bổ token như thế nào giữa các phần khác nhau của một tác vụ phức tạp. Điều này hữu ích nếu bạn có một tác tử đốt 80% ngân sách của mình vào phần dễ và hết “năng lượng” ở phần khó.
Khả Năng Tuân Thủ Hướng Dẫn Trở Nên Nghiêm Ngặt Hơn
Đây là điều có thể gây khó khăn nếu bạn chưa chuẩn bị.
Opus 4.7 tuân thủ hướng dẫn một cách nghĩa đen hơn bất kỳ mô hình Claude trước đây nào. Theo lời của Anthropic: “tuân thủ tốt hơn đáng kể” và “tuân thủ hướng dẫn một cách nghĩa đen hơn các phiên bản tiền nhiệm”. Họ thậm chí còn khuyến nghị điều chỉnh lại các prompt hiện có.
Tôi sẽ nói thẳng: nếu các prompt của bạn có những hướng dẫn cẩu thả mà Opus 4.6 đã bỏ qua một cách lịch sự hoặc diễn giải rộng lượng, thì Opus 4.7 sẽ tuân thủ chúng đến từng chữ. Và bạn có thể không thích kết quả.
Ví dụ: tôi có một prompt hệ thống nói “luôn phản hồi ở định dạng JSON”. Với Opus 4.6, nó vẫn sẽ cung cấp cho tôi một đoạn mở đầu bằng ngôn ngữ tự nhiên trước JSON khi nó cảm thấy người dùng cần ngữ cảnh. Opus 4.7? Chỉ có JSON thuần túy. Mọi lúc. Không có ngoại lệ. Ngay cả khi một câu hỏi làm rõ sẽ hữu ích hơn.
Cách khắc phục: Hãy chính xác về những gì bạn thực sự muốn. Nếu bạn muốn “phản hồi ở định dạng JSON trừ khi câu hỏi của người dùng yêu cầu làm rõ,” hãy nói rõ điều đó. Mô hình sẽ không còn đoán ý định của bạn nữa – nó sẽ làm theo những gì bạn đã bảo.
Đây thực sự là một điều tốt cho các hệ thống sản xuất. Khả năng dự đoán cao hơn sự khéo léo. Nhưng bạn sẽ cần kiểm tra lại các prompt của mình.
Những Điều Có Thể Gây Ra Sự Cố (Hoặc Sẽ Gây Sự Cố)
Đây là những điều cần lưu ý về quá trình di chuyển:
- Số lượng token thay đổi. Bản cập nhật bộ mã hóa có nghĩa là cùng một văn bản đầu vào hiện tạo ra số lượng token nhiều hơn 1.0-1.35 lần. Giới hạn tỷ lệ, tính toán ngân sách và quản lý cửa sổ ngữ cảnh của bạn đều cần được kiểm tra lại. Nếu bạn đang chạy gần giới hạn ngữ cảnh, bạn có thể bắt đầu nhận được các phản hồi bị cắt bớt.
- Hành vi của prompt thay đổi. Do việc tuân thủ hướng dẫn nghiêm ngặt hơn, các prompt dựa vào Claude “đọc giữa các dòng” sẽ hoạt động khác. Không phải sai, chỉ là khác. Hãy kiểm tra trước khi triển khai.
- Bộ đánh giá hiện có có thể cần cập nhật. Nếu các bộ đánh giá của bạn kiểm tra các mẫu đầu ra cụ thể, việc tạo mã sạch hơn và tuân thủ hướng dẫn theo nghĩa đen hơn sẽ thay đổi đầu ra. Tỷ lệ đạt của bạn có thể tạm thời giảm ngay cả khi chất lượng thực tế đã được cải thiện.
Không điều nào trong số này là yếu tố gây ngừng hoạt động. Nhưng nếu bạn triển khai vào sản xuất mà không thử nghiệm, bạn sẽ phải tự mình tìm hiểu theo cách khó khăn. Tôi đã từng ở đó – từng triển khai một bản cập nhật mô hình vào thứ Sáu một lần. Đừng giống tôi.
Tích Hợp Claude Code
Nếu bạn sử dụng Claude Code (CLI), Opus 4.7 đã có sẵn. Bạn có thể đang đọc bài đăng này từ một phiên đang chạy nó.
Điểm mới lớn: /ultrareview. Đây là một lệnh đánh giá mã chuyên dụng chạy phân tích sâu các thay đổi của bạn – không chỉ kiểm tra cú pháp, mà còn là đánh giá thiết kế thực sự. Hãy nghĩ xem “một kỹ sư cấp cao cẩn thận sẽ phát hiện ra điều gì trong một đánh giá PR?” Anthropic cho biết nó xác định các lỗi và vấn đề thiết kế ở cấp độ đó.
Người đăng ký Pro và Max nhận được ba lần ultrareview miễn phí. Sau đó, nó sẽ sử dụng ngân sách token thông thường của bạn, nhưng thành thật mà nói, ba lần đánh giá sâu mỗi chu kỳ thanh toán là khá hào phóng để bắt được những loại lỗi mà CI thường bỏ qua.
Chế độ tự động cũng được mở rộng cho người dùng Max, vì vậy bạn có thể chạy các phiên tác tử tự động dài hơn với ít gián đoạn quyền hơn.
Giá Cả và Khả Dụng
| Giá | |
|---|---|
| Đầu vào | 5 USD / triệu token |
| Đầu ra | 25 USD / triệu token |
Không có thay đổi nào so với Opus 4.6. Hiện đã có sẵn trên:
- Claude.ai (web và desktop)
- Anthropic API (
claude-opus-4-7-20260416) - Amazon Bedrock
- Google Cloud Vertex AI
- Microsoft Foundry
ID mô hình cho các cuộc gọi API là claude-opus-4-7-20260416. Hãy cập nhật cấu hình của bạn.
Bạn Có Nên Chuyển Đổi Ngay Hôm Nay?
Theo tôi: có, nhưng có một vài lưu ý.
- Nếu bạn đang xây dựng các hệ thống tác tử tự động – hãy chuyển đổi ngay lập tức. Những cải tiến về khả năng phục hồi lỗi của nó đã đủ giá trị. Độ chính xác gọi công cụ tăng 10-15% có nghĩa là ít vòng lặp lỗi hơn và ít lãng phí tài nguyên tính toán hơn.
- Nếu bạn đang làm bất cứ điều gì liên quan đến thị giác máy tính – hãy chuyển đổi ngay lập tức. Bước nhảy từ 54.5% lên 98.5% độ nhạy thị giác đã thay đổi những gì có thể thực hiện được. Đọc màn hình, trích xuất tài liệu, hiểu sơ đồ – tất cả đều thực sự hoạt động hiệu quả ngay bây giờ.
- Nếu bạn đang chạy các prompt trong sản xuất – hãy kiểm tra trước, sau đó chuyển đổi. Việc tuân thủ hướng dẫn nghiêm ngặt hơn sẽ tốt hơn về lâu dài nhưng sẽ làm hỏng các prompt đã dựa vào sự diễn giải rộng lượng của mô hình. Hãy dành một ngày để kiểm tra lại các prompt.
- Nếu bạn nhạy cảm về chi phí – hãy theo dõi số lượng token của bạn. Giá mỗi token vẫn giữ nguyên, nhưng những thay đổi của bộ mã hóa có nghĩa là bạn có thể đang gửi nhiều token hơn trước đây. Hãy giám sát việc sử dụng của bạn trong tuần đầu tiên.
Hồ sơ an toàn vững chắc – tương tự như Opus 4.6 với những cải tiến về tính trung thực và khả năng chống lại tấn công prompt injection. Anthropic đang thận trọng với các khả năng an ninh mạng (cố tình giảm bớt so với mô hình Mythos Preview của họ), đây có lẽ là một quyết định đúng đắn.
Một điều tôi đánh giá cao: họ đã phát hành một mô hình thực sự tốt hơn với cùng mức giá. Không có cấp độ “Opus 4.7 Pro Max Ultra” nào. Không có bức tường phí cho các cải tiến cốt lõi. Lộ trình nâng cấp chỉ đơn giản là… cập nhật chuỗi ID mô hình của bạn.
Bạn có ấn tượng đầu tiên như thế nào? Tôi đặc biệt tò mò liệu có ai khác đang thấy sự tuân thủ hướng dẫn nghiêm ngặt hơn trong các prompt hiện có của họ hay không. Hãy để lại bình luận hoặc liên hệ với tôi.
Nếu bạn đang làm việc với AI trong terminal, hãy xem Hermes IDE – đây là trình bao shell mã nguồn mở, miễn phí mà tôi đã xây dựng, tích hợp khả năng tự động hoàn thành AI, quản lý git và các phiên đa dự án trên shell hiện có của bạn. Nó hoạt động với Claude, Gemini, Aider, Codex và Copilot. Hermes IDE đã hỗ trợ Opus 4.7 thông qua API của Anthropic.
Để đọc thêm các bài viết của tôi, hãy truy cập xGabriel.com.




