newboi
Đàn iem Duy Mạnh
Paul Mah
ngày 24 tháng 10 năm 2025
GPU sẽ chết ở đâu? Khi thế giới đang chạy đua xây dựng các trung tâm dữ liệu AI khổng lồ với hàng triệu GPU, điều gì sẽ xảy ra với những GPU cũ?
trò chuyện với một giám đốc điều hành của một nhà điều hành trung tâm dữ liệu hàng đầu về chủ đề về sự lỗi thời của GPU, một số điều đã được đề cập.
Sống nhanh, chết trẻ
vẫn còn khá mới mẻ với việc nhồi nhét GPU vào các trung tâm dữ liệu, nhưng số lượng GPU được bán ra đã tăng vọt kể từ khi Nvidia ra mắt A100 vào năm 2020.
CPU vẫn dẫn đầu, nhưng khoảng cách đang thu hẹp dần.
năm 2025 Nvidia dự kiến sẽ xuất xưởng tới 7 triệu GPU, so với 12-13 triệu CPU máy chủ của Intel.
khác biệt chính có thể nằm ở tuổi thọ của chúng. Máy chủ thường được triển khai trong 3-5 năm hoặc hơn. Tuy nhiên, chưa có tiền lệ nào cho GPU - chúng ta đơn giản là không biết.
có nhiều bằng chứng chống lại tuổi thọ của GPU:
khối lượng công việc cực lớn làm giảm tuổi thọ của nó.
chu kỳ lỗi thời ngắn.
tỷ lệ lỗi cao*.
tác vụ huấn luyện AI khiến GPU nhanh hỏng hơn. Một báo cáo từ Meta năm ngoái ước tính tỷ lệ lỗi hàng năm của GPU H100 vào khoảng 9%. Tức là cứ 4 GPU thì có hơn 1 GPU chết sau 3 năm!
một nhà sản xuất máy chủ GPU đã kể lại rằng họ đã phải gửi GPU dự phòng cho các khách hàng doanh nghiệp/SaaS quan trọng để giảm thiểu gián đoạn khi chúng hỏng.
có những giai thoại về việc các nhà điều hành SaaS mắc kẹt với số lượng lớn GPU A100 chưa được sử dụng hết công suất vì khách hàng ưa chuộng GPU H200 mới hơn.
Tái chế GPU
ngoài những tranh cãi giữa một số CEO và kế toán của họ về lịch trình khấu hao, tại sao việc cho GPU nghỉ hưu sớm lại quan trọng?
việc tái chế GPU khó hơn nhiều so với CPU.
lắp ráp nhiều thành phần phức tạp.
cần nhiều nhân công hơn để tháo rời.
nhiều nguyên tố đất hiếm hơn gấp bội.
không nên nhầm lẫn với GPU chơi điện tử, GPU trí tuệ nhân tạo là bao gồm:
GPU.
bộ nhớ HBM.
bộ điều khiển bộ nhớ.
linh kiện cung cấp điện.
kết nối chip (ví dụ: NVLink).
tản nhiệt lớn hoặc tấm tản nhiệt lạnh.
việc tái chế GPU AI khó khăn hơn đáng kể do cấu trúc phức tạp và sự hiện diện của nhiều vật liệu nguy hiểm.
nhu cầu GPU trong các trung tâm dữ liệu AI là vô cùng lớn, nhưng hiện tại chắc không có ai đang tái chế GPU AI ở quy mô lớn.
ngày 24 tháng 10 năm 2025GPU sẽ chết ở đâu? Khi thế giới đang chạy đua xây dựng các trung tâm dữ liệu AI khổng lồ với hàng triệu GPU, điều gì sẽ xảy ra với những GPU cũ?
trò chuyện với một giám đốc điều hành của một nhà điều hành trung tâm dữ liệu hàng đầu về chủ đề về sự lỗi thời của GPU, một số điều đã được đề cập.
Sống nhanh, chết trẻ
vẫn còn khá mới mẻ với việc nhồi nhét GPU vào các trung tâm dữ liệu, nhưng số lượng GPU được bán ra đã tăng vọt kể từ khi Nvidia ra mắt A100 vào năm 2020.
CPU vẫn dẫn đầu, nhưng khoảng cách đang thu hẹp dần.
năm 2025 Nvidia dự kiến sẽ xuất xưởng tới 7 triệu GPU, so với 12-13 triệu CPU máy chủ của Intel.
khác biệt chính có thể nằm ở tuổi thọ của chúng. Máy chủ thường được triển khai trong 3-5 năm hoặc hơn. Tuy nhiên, chưa có tiền lệ nào cho GPU - chúng ta đơn giản là không biết.
có nhiều bằng chứng chống lại tuổi thọ của GPU:
khối lượng công việc cực lớn làm giảm tuổi thọ của nó.
chu kỳ lỗi thời ngắn.
tỷ lệ lỗi cao*.
tác vụ huấn luyện AI khiến GPU nhanh hỏng hơn. Một báo cáo từ Meta năm ngoái ước tính tỷ lệ lỗi hàng năm của GPU H100 vào khoảng 9%. Tức là cứ 4 GPU thì có hơn 1 GPU chết sau 3 năm!
một nhà sản xuất máy chủ GPU đã kể lại rằng họ đã phải gửi GPU dự phòng cho các khách hàng doanh nghiệp/SaaS quan trọng để giảm thiểu gián đoạn khi chúng hỏng.
có những giai thoại về việc các nhà điều hành SaaS mắc kẹt với số lượng lớn GPU A100 chưa được sử dụng hết công suất vì khách hàng ưa chuộng GPU H200 mới hơn.
Tái chế GPU
ngoài những tranh cãi giữa một số CEO và kế toán của họ về lịch trình khấu hao, tại sao việc cho GPU nghỉ hưu sớm lại quan trọng?
việc tái chế GPU khó hơn nhiều so với CPU.
lắp ráp nhiều thành phần phức tạp.
cần nhiều nhân công hơn để tháo rời.
nhiều nguyên tố đất hiếm hơn gấp bội.
không nên nhầm lẫn với GPU chơi điện tử, GPU trí tuệ nhân tạo là bao gồm:
GPU.
bộ nhớ HBM.
bộ điều khiển bộ nhớ.
linh kiện cung cấp điện.
kết nối chip (ví dụ: NVLink).
tản nhiệt lớn hoặc tấm tản nhiệt lạnh.
việc tái chế GPU AI khó khăn hơn đáng kể do cấu trúc phức tạp và sự hiện diện của nhiều vật liệu nguy hiểm.
nhu cầu GPU trong các trung tâm dữ liệu AI là vô cùng lớn, nhưng hiện tại chắc không có ai đang tái chế GPU AI ở quy mô lớn.