F5 dan NVIDIA Perluas Layanan, Fokus Tekan Risiko Biaya Inferensi AI
F5 dan NVIDIA berkolaborasi untuk meningkatkan efisiensi infrastruktur AI, mengurangi biaya inferensi, dan memaksimalkan output ekonomi per akselerator GPU.
(Bisnis.Com) 04/05/26 13:05 210284
Bisnis.com, JAKARTA — F5, perusahaan delivery dan pengamanan aplikasi serta API, memperluas layanannya untuk mempercepat dan mengoptimalkan infrastruktur inferensi AI, melalui kolaborasi berkelanjutannya dengan NVIDIA.
Untuk diketahui, inferensi AI adalah ekosistem teknologi yang memungkinkan model kecerdasan buatan (AI) menjalankan tugasnya—seperti menghasilkan teks, mengklasifikasikan gambar, atau melakukan prediksi—setelah model tersebut selesai dilatih (training).
Dalam dunia AI terdapat dua fase besar yaitu fase "sekolah" di mana model memproses data raksasa untuk belajar pola. Kemudian, fase "bekerja" di mana model yang sudah matang menerima data baru dari pengguna dan memberikan respons secara real-time.
Seiring perusahaan dan penyedia GPU-as-a-Service berlomba-lomba untuk memonetisasi AI dan beralih dari fase eksperimen AI ke fase penyediaan layanan yang menghasilkan pendapatan, efisiensi infrastruktur telah menjadi metrik yang menentukan.
Keberhasilan kini tidak lagi diukur dari kapasitas GPU yang tersedia, namun dari ‘ekonomi’ token, throughput token yang berkelanjutan, time to first token (TTFT), biaya per token, hingga pendapatan per akselerator GPU. Solusi gabungan F5 dan NVIDIA ini dirancang untuk menjawab langsung metrik-metrik tersebut.
Chief Product Officer F5 Kunal Anand mengatakan selama ini, organisasi cenderung melakukan overprovisioning atau penyediaan sumber daya berlebih untuk menutupi inefisiensi sistem. Kondisi ini membuat biaya operasional membengkak tanpa adanya peningkatan throughput yang signifikan.
Infrastruktur yang lambat memproses data tidak hanya merusak pengalaman pengguna, tetapi juga membatasi potensi pendapatan per akselerator GPU.
Merespons kendala tersebut, F5 dan NVIDIA berkolaborasi untuk menghadirkan solusi infrastruktur cerdas. Melalui integrasi F5 BIG-IP Next for Kubernetes dengan NVIDIA BlueField-3 DPU, kedua perusahaan menciptakan lapisan telemetri cerdas. Sistem ini memungkinkan pengambilan keputusan routing berbasis inferensi sebelum eksekusi dilakukan, sehingga beban kerja mendapatkan akselerator paling tepat secara real-time.
“Infrastruktur AI bukan hanya tentang akses ke GPU atau peningkatan skala implementasinya. Ia telah berevolusi menjadi upaya memaksimalkan output ekonomi per akselerator,” kata Kunal dikutip Senin (4/5/2026).
Dia menambahkan bersama dengan NVIDIA, F5 membuat AI factory memperlakukan produksi token sebagai metrik bisnis yang terukur. BIG-IP Next for Kubernetes menyediakan intelligence dan tata kelola yang dibutuhkan untuk meningkatkan GPU yield, mengurangi biaya per token dan mengembangkan platform AI bersama dengan lebih percaya diri.
Pendekatan ini memberikan keuntungan teknis yang terukur. Berdasarkan pengujian oleh The Tolly Group, infrastruktur yang dipercepat oleh NVIDIA BlueField-3 DPU mampu menghasilkan peningkatan token throughput hingga 40%, mempercepat time to first token (TTFT) sebesar 61%, serta menekan latensi permintaan keseluruhan hingga 34%.
Pencapaian ini terjadi dengan mengalihkan fungsi berat seperti networking, enkripsi TLS, hingga manajemen trafik ke DPU. Langkah tersebut membebaskan GPU untuk fokus pada fungsi utamanya, yakni inferensi berkelanjutan dengan skala besar.
Seluruh peningkatan performa ini tidak memerlukan modifikasi model sama sekali, sehingga solusi ini dapat langsung diterapkan pada infrastruktur yang sudah berjalan.
“Infrastruktur komputasi terakselerasi dari NVIDIA yang dipadukan dengan Application Delivery and Security Platform berbasis AI dari F5 membuka potensi ‘tokenomics’ AI factory, yakni menghadirkan inferensi yang skalabel dan hemat biaya tanpa perlu melakukan perubahan apa pun pada model,” kata Kevin Deierling, SVP, Networking, NVIDIA.
Solusi ini menjadi jawaban bagi kebutuhan arsitektur masa depan yang mendukung AI berbasis agen (agentic AI). Dengan kemampuan mengelola multi-tenancy yang aman dan kontrol trafik cerdas, organisasi kini memiliki control planestrategis untuk mengelola konsumsi token.
Pada akhirnya, inovasi ini membantu perusahaan meraih nilai ekonomi lebih besar dari setiap GPU yang ada, sekaligus menekan biaya operasional untuk mendukung pertumbuhan bisnis jangka panjang.
#f5-ai #nvidia-ai #inferensi-ai #ai-korporasi #optimasi-infrastruktur-ai #gpu-as-a-service #efisiensi-ai #ekonomi-token #throughput-token #biaya-per-token #akselerator-gpu #f5-big-ip-next #nvidia-bluef