Mùa ong bắp cày đã đến. Những loài côn trùng kỳ lạ này tiêm hóa chất vào thực vật, biến đổi cấu trúc phát triển tự nhiên của chúng – giống như cách các lập trình viên khai thác lỗ hổng phần mềm. Hiện tượng này khiến ta liên tưởng đến sự phát triển chóng mặt của phần cứng công nghệ trong thập kỷ qua.
Mục lục
Cuộc Cách Mạng Về Số Lõi Xử Lý
Nhìn lại lịch sử phát triển vi xử lý, chúng ta chứng kiến sự nhảy vọt ấn tượng về số lõi xử lý. Năm 2017, AMD Zen EPYC ra mắt với tối đa 32 lõi. Chỉ sau 8 năm, con số này đã tăng gấp bốn lần:
- 2019 (Zen 2): 64 lõi
- 2022 (Zen 4): 96 lõi hoặc 128 lõi nhỏ với Zen 4c
- 2024 (Zen 5): 128 lõi, 192 lõi với Zen 5c
Đây chính là biểu hiện rõ ràng của định luật Moore trong thời đại mới, khi số lõi tăng gấp đôi sau mỗi hai năm.
Sự Tiến Hóa Của Băng Thông Và Hiệu Suất
Trong khi tốc độ xử lý mỗi lõi không tăng đáng kể, các đơn vị tính toán bên trong đã có bước tiến vượt bậc:
- Từ thanh ghi 32 bit lên 64 bit (amd64 năm 2003)
- SSE 128 bit (1999)
- AVX 256 bit (2011)
- AVX 512 bit (2017)
Phần cứng Zen5 mới nhất có thể thực hiện bốn phép tính 512bit mỗi chu kỳ. Tuy nhiên, khả năng này vượt xa giới hạn băng thông bộ nhớ, chỉ thực sự hữu ích khi xử lý dữ liệu đã được cache.
Bộ Nhớ Và Kết Nối: Những Cải Tiến Đáng Chú Ý
AMD EPYC đã tăng từ 8 kênh DDR4 lên 12 kênh DDR5, gần như tăng gấp đôi băng thông bộ nhớ tối đa. Tuy nhiên, với cấu hình nhiều lõi, băng thông trên mỗi lõi lại giảm đi một nửa.
Về kết nối mạng, chúng ta chứng kiến sự thay đổi từ các bước nhảy x10 (100Mb năm 1995, 1Gb 1999, 10Gb 2002, 100Gb 2010) sang chu kỳ tăng gấp đôi:
- 2015: 25Gb và 50Gb
- 2017: 200Gb và 400Gb
- 2024: 800Gb
Các tiêu chuẩn hiện tại dựa trên liên kết 100Gb đang được nâng cấp lên 200Gb, và quá trình này sẽ tiếp tục.
Lưu Trữ Dữ Liệu: Kỷ Nguyên Mới
Ổ cứng HDD giờ đây chỉ còn phù hợp cho lưu trữ gần (nearline). Thiết bị PCIe5 x4 đơn lẻ có thể đạt tốc độ đọc 14GB/s, đủ để bão hòa kênh Ethernet 100Gb. Các thiết bị flash 200 lớp với dung lượng 120TB và 240TB đang bắt đầu xuất hiện.
Tuy nhiên, độ trễ hầu như không giảm, thậm chí còn tăng trong các kiến trúc đám mây. Để tận dụng hiệu suất hiện có, độ sâu hàng đợi phải tăng đáng kể – điều mà hầu hết phần mềm hiện chưa tối ưu.
GPU Và Phần Cứng AI: Tương Lai Của Tính Toán
GPU đã phát triển các dạng bộ nhớ đặc biệt như GDDR và HBM với bus rộng hơn, nhanh hơn nhưng độ trễ cao hơn. Trong khi kênh DDR5 rộng 64 bit, HBM 3E là ngăn xếp tới 16 die, mỗi die 64 bit. GPU GB100 của Nvidia có 8 ngăn xếp, mỗi ngăn 8 die.
Khác biệt lớn nhất giữa CPU và GPU nằm ở cách xử lý:
- GPU không hỗ trợ rẽ nhánh mã hiệu quả
- 32 luồng (warp) chạy cùng một lệnh
- Mỗi tensor core xử lý vector 1024 bit mỗi chu kỳ
- Thường xử lý cả hai nhánh điều kiện và nhân với boolean để chọn kết quả
Với AI, độ chính xác thấp đang trở thành xu hướng. Trong khi các nhà khoa học từng ưa chuộng float 64 bit, Nvidia Blackwell hiện chạy float 4 bit – nhanh hơn gấp 16 lần.
Kiến Trúc AI: Siêu Máy Tính Thu Nhỏ
Các hệ thống AI hiện đại thường gồm:
- 2 CPU
- 8 GPU
- 10 card mạng 800Gb (8 dành cho GPU)
Ngay cả tác vụ suy luận (inference) cũng hiệu quả nhất khi chạy phân tán trên nhiều máy, đặc biệt với mô hình lớn. Các tác vụ thường được xử lý theo lô (ví dụ 100 cuộc hội thoại cùng lúc với LLM) để tận dụng tối đa tài nguyên.
Xu Hướng Sản Xuất Và Đầu Tư
Theo thống kê từ TSMC:
- 1/3 sản lượng là chip điện thoại (50% accelerator, 50% CPU truyền thống)
- Phần còn lại chia đều giữa CPU và GPU
- 50% chi tiêu server dành cho tính toán tăng tốc
AI đang thúc đẩy đầu tư mạnh mẽ, nhưng kiến trúc này vốn đã hình thành từ trước, đạt quy mô siêu máy tính vào khoảng năm 2017.
Thách Thức Cho Phần Mềm
Trong khi phần cứng phát triển vượt bậc, phần mềm đang tụt hậu phía sau:
- Hiệu suất đơn luồng không cải thiện đáng kể
- Độ trễ chuyển đổi giữa CPU-GPU vẫn lớn
- Các giải pháp tích hợp CPU-GPU (Apple, Nvidia, AMD) thường có băng thông bộ nhớ thấp
AI đã thúc đẩy cách mạng phần cứng, nhưng cuộc cách mạng phần mềm cho phần cứng hiện đại vẫn còn ở phía trước. Đây chính là thách thức lớn nhất mà cộng đồng công nghệ cần giải quyết trong thập kỷ tới.