F5 Meningkatkan Skala Inferensi AI dari Dalam ke Luar

Renaisans infrastruktur memiliki slogan baru: “biarkan server melayani, dan biarkan inferensi menginferen.”

Di masa awal teknologi, saya menghabiskan bertahun-tahun menguji dan menganalisis SSL accelerator. Kartu kecil ini dirancang untuk mengatasi masalah besar yang muncul akibat ledakan pertumbuhan bisnis dan perdagangan digital, yaitu: fungsi keamanan yang menggunakan SSL memakan siklus CPU dan menjadi sumber utama masalah performa. Maka, industri—termasuk F5—mengembangkan perangkat keras untuk memindahkan beban kerja tersebut, dan membiarkan server melakukan tugas utamanya.

Hari ini, kita melihat masalah yang sama muncul kembali pada AI—khususnya dalam inferensi—dan tidak mengherankan, solusi yang serupa juga kembali muncul: perangkat keras khusus yang memungkinkan server tetap melayani, dan inferensi tetap menginferen.

Ya, secara tata bahasa mungkin kalimat itu tidak tepat, tapi mari kita lanjutkan saja, oke? 😄

Inferensi dalam Aksi

Aplikasi AI adalah aplikasi modern dari sisi arsitekturnya. Tapi di jantung aplikasi AI terdapat proses inferensi, dan di sinilah AI berbeda dari aplikasi modern “biasa”.

Kita telah melihat bagaimana kompleks komputasi AI dibangun dari gabungan CPU dan GPU. Sumber daya komputasi ini punya rasio dan keseimbangan yang harus dijaga agar cluster tetap efisien. Setiap kali CPU tidak bisa mengikuti, maka GPU yang mahal hanya akan menganggur.

Faktanya, hanya sebagian dari proses server inferensi yang benar-benar melakukan inferensi. Sebagian besar justru merupakan pemrosesan web standar seperti menangani permintaan HTTP dan API. Bagian inilah yang membebani CPU dan sering kali menjadi titik lemah. Ketika beban ini terlalu besar, pemanfaatan GPU menurun drastis karena server tersendat dalam menangani permintaan masuk.

Mungkin itu sebabnya 15% organisasi melaporkan bahwa kurang dari 50% GPU mereka yang tersedia benar-benar digunakan (berdasarkan laporan State of AI Infrastructure at Scale 2024).

Solusi: Offloading dengan DPU

Salah satu penyebab utama adalah CPU digunakan untuk pekerjaan infrastruktur—seperti manajemen lalu lintas, keamanan, dan monitoring—yang menguras sumber daya CPU dan menurunkan kapasitas serta performa server inferensi.

Untungnya, renaisans infrastruktur saat ini berfokus pada menghemat sumber daya CPU untuk pekerjaan inferensi dengan cara memindahkan (offload) operasi infrastruktur ke unit pemrosesan baru: DPU (Data Processing Unit).

DPU: Dua Mode, Banyak Manfaat

Hal menarik dari DPU adalah bahwa ia mendukung dua mode berbeda:

  1. Offload jaringan seperti RDMA melalui Infiniband atau Ethernet. Ini sangat membantu saat membangun kompleks komputasi AI yang harus menangani lalu lintas data besar—misalnya saat melatih model atau menyebarkan inferensi ke basis pengguna besar.
  2. Mode DPU di Kubernetes, di mana DPU muncul sebagai node terpisah tempat layanan seperti application delivery dan security bisa dijalankan. Ini membuat CPU bisa dikhususkan hanya untuk inferensi, karena tugas-tugas infrastruktur yang kompleks kini dialihkan ke node sendiri.

Dengan pendekatan ini, solusi seperti F5 BIG-IP Next SPK (Service Proxy for Kubernetes) dapat mengelola dan mengamankan permintaan AI masuk (north-south) melalui API dan mendistribusikannya secara efisien ke layanan inferensi yang tepat di dalam kompleks AI tersebut.

Manfaat Tambahan

  • Organisasi bisa memanfaatkan investasi dan pengetahuan yang sudah dimiliki dalam manajemen Kubernetes karena solusi ini native di Kubernetes.
  • Pendekatan ini memisahkan tanggung jawab antara tim jaringan & keamanan (infra) dan tim developer & ML ops (AI workload), memungkinkan mereka bekerja secara paralel tanpa saling mengganggu.
  • DPU juga mendukung kebutuhan multi-tenant dengan lebih baik. Ini bukan hanya soal memisahkan workload pelanggan, tapi juga memisahkan workload antar model AI. Berdasarkan riset kami, organisasi saat ini rata-rata menggunakan 2,9 model AI berbeda. Mampu mengelola model-model ini secara konsisten memberikan rasa aman terhadap privasi dan keamanan data.

Kesimpulan

Ini bukan pertama kalinya F5 bekerja sama dengan NVIDIA dalam kasus penggunaan AI. Tapi ini adalah pertama kalinya kami mengembangkan solusi bersama untuk membantu organisasi dari segala ukuran membangun kompleks AI yang dapat diskalakan dan aman, sehingga mereka dapat mengoptimalkan penggunaan GPU, dan memastikan bahwa daya inferensi mereka tidak terbuang sia-sia.

Infrastruktur IT yang kuat adalah kunci produktivitas perusahaan. Dengan F5 Indonesia, Anda bisa mendapatkan solusi IT lengkap yang sesuai dengan kebutuhan Anda. iLogo Indonesia sebagai mitra terpercaya siap mengintegrasikan semuanya agar bisnis Anda tetap berjalan lancar dan aman.
Hubungi kami sekarang atau kunjungi F5 Indonesia untuk informasi lebih lanjut!