Jakarta (cafekomputer.net) – Dalam perkembangan terbaru dunia kecerdasan artifisial, sistem rack-scale Nvidia Blackwell berhasil menduduki puncak performa pada benchmark InferenceMAX v1 yang baru diluncurkan. Analisis mengungkapkan teknologi jaringan mutakhir Nvidia menjadi kontributor utama capaian ini.
Benchmark InferenceMAX v1, dirilis minggu ini oleh firma analis SemiAnalysis, mengevaluasi efisiensi inferensi AI melintasi berbagai GPU dari vendor hardware terkemuka. Pengujian mencakup throughput, latensi, dan total biaya kepemilikan saat menjalankan framework seperti vLLM, SGLang, dan TensorRT-LLM. Benchmark bersifat open source dan dijalankan setiap malam untuk merefleksikan peningkatan perangkat lunak dan firmware secara hampir real-time.
SemiAnalysis menemukan sistem rack-scale GB200 NVL72 dari Nvidia menunjukkan performa terkuat di semua metrik, termasuk throughput-per-dolar dan tokens-per-megawatt, melampaui sistem pesaing seperti AMD MI355X.
Menyusul hasil tes tersebut, blog teknis Nvidia mengaitkan sebagian besar performa unggul ini pada teknologi jaringannya, termasuk NVLink, NVLink Switch, dan fabric jaringan tingkat rack pada NVL72. Klaim perusahaan chip ini menyatakan teknologi tersebut membantu mengurangi overhead komunikasi dalam inferensi skala besar.
Insinyur Nvidia menulis bahwa Tensor Core generasi kelima pada GB200 dan bandwidth bidirectional 1.800 GB/s dari NVLink Switch membantu menghilangkan bottleneck PCIe tradisional sambil menjaga utilisasi penuh.
Selain terobosan jaringan, performa Nvidia juga dikaitkan dengan inovasi perangkat lunak. Integrasi framework inferensi yang terus diperbarui seperti TensorRT-LLM dan Dynamo turut membantu menekan level biaya untuk menjalankan model AI intensif dibandingkan dengan sistem rival.
“Permintaan inferensi tumbuh secara eksponensial, didorong oleh penalaran konteks panjang,” ujar Jensen Huang, pendiri dan CEO Nvidia. “Grace Blackwell NVL72 diciptakan untuk era AI berpikir yang baru ini. Nvidia memenuhi permintaan tersebut melalui inovasi hardware dan software yang konstan untuk memungkinkan terobosan berikutnya dalam AI.”
GB200 yang memuncaki benchmark ini telah tersedia dalam skala dari penyedia seperti CoreWeave. Perusahaan seperti IBM, Mistral AI, dan Cohere termasuk di antara pelanggan awal yang telah menggunakan server-server tersebut.
Bersamaan dengan posisi teratas GB200 NVL72, Nvidia mengumumkan bahwa Microsoft telah meluncurkan cluster produksi skala besar pertama di dunia untuk generasi server rack berikutnya: GB300 NVL72. Penawaran generasi baru ini sedang diterapkan untuk pembuat ChatGPT, OpenAI, menampilkan lebih dari 4.600 GPU Blackwell Ultra yang terhubung menggunakan platform jaringan Quantum-X800 berbasis InfiniBand milik Nvidia.
Meski hasil benchmark awal SemiAnalysis telah dirilis, firma analis tersebut berencana untuk terus-menerus melakukan re-benchmark workload inferensi di berbagai vendor guna mencerminkan pembaruan perangkat lunak dan keras harian. Rencananya juga termasuk menguji hardware lain seperti penawaran khusus TPU Google dan sistem Trainium Amazon Web Services.
Benchmark terbuka ini dikembangkan dengan kolaborasi AMD dan Nvidia. SemiAnalysis menekankan bahwa hasil bervariasi berdasarkan workload dan format presisi. “Kolaborasi terbuka mendorong era inovasi AI berikutnya,” kata Dr. Lisa Su, Chair dan CEO AMD. “Benchmark InferenceMAX open-source memberi komunitas hasil transparan yang menginspirasi kepercayaan dan mempercepat kemajuan.” (joh)