Pendahuluan
Penelitian terbaru menunjukkan bahwa permukaan serangan (attack surface) AI berkembang sangat cepat. Salah satu teknik baru yang ditemukan adalah “Sugar-Coated Poison (SCP)”, yaitu metode yang secara perlahan melemahkan sistem keamanan model AI melalui percakapan bertahap, bukan serangan langsung.
Selain itu, kerentanan AI tidak hanya berasal dari modelnya saja, tetapi juga dari:
- tools pengembang
- integrasi sistem
- infrastruktur pendukung
Artinya, fokus keamanan kini bergeser dari model saja → ke seluruh ekosistem AI.
Perubahan di CASI Leaderboard
- Model AI dari OpenAI dan Anthropic mendominasi leaderboard keamanan.
- Beberapa model lain punya performa tinggi tapi keamanan lebih rendah.
- Ada trade-off antara biaya, performa, dan keamanan.
Apa itu “Sugar-Coated Poison”?
Ini adalah teknik serangan yang bekerja dengan cara menurunkan “ambang penolakan” AI secara bertahap.
Cara kerjanya:
- Tidak ada pesan yang terlihat berbahaya
- Serangan dilakukan secara bertahap
- AI perlahan menjadi lebih permisif
- Akhirnya AI menjawab hal yang sebelumnya ditolak
Konsep Penting: “Context” dalam AI
“Context” adalah semua informasi yang diterima AI saat menjawab, termasuk:
- riwayat percakapan
- system prompt tersembunyi
- dokumen dari RAG
- hasil dari tools/API
Jika konteks ini dimanipulasi, AI bisa diarahkan untuk melakukan hal berbahaya tanpa “dibobol” secara langsung.
Tahapan Serangan SCP
- Membangun kepercayaan
Mulai dengan diskusi normal dan profesional - Membentuk perilaku AI
AI masuk ke mode “helpful” dan edukatif - Pivot (serangan utama)
Pertanyaan berbahaya dimasukkan secara halus
➡️ Karena konteks sudah terbentuk, AI lebih mudah “tertipu”.
Dampak Serangan
- Tingkat keberhasilan serangan bisa sangat tinggi (hingga ~87% pada model lama)
- Serangan terlihat natural → sulit dideteksi
- Bisa digunakan di dunia nyata, misalnya:
- sistem perbankan
- deteksi fraud
- compliance system
Contohnya: attacker berpura-pura sebagai analis keamanan, lalu secara bertahap meminta informasi yang bisa dipakai untuk menghindari sistem deteksi.
Berita Keamanan AI Terbaru (dalam artikel)
Artikel juga membahas beberapa kasus nyata:
1. RoguePilot
- Menyisipkan instruksi berbahaya di GitHub issue
- Bisa mencuri data seperti token atau file
.env
2. ClawJacked
- Serangan WebSocket lokal
- Bisa mengambil alih kontrol sistem developer
3. Claude Code exploit
- File konfigurasi dimanipulasi
- Bisa mencuri API key sebelum user sadar
➡️ Pola utamanya:
AI tidak “rusak”, tapi dimanipulasi lewat input eksternal.
Kesimpulan Utama
- Serangan AI sekarang lebih halus dan kontekstual, bukan langsung
- Target bukan hanya model, tapi seluruh sistem AI
- Input (data, dokumen, tools) menjadi titik serangan utama
Infrastruktur IT yang kuat adalah kunci produktivitas perusahaan. Dengan F5 indonesia, merupakan bagian dari PT. iLogo Infralogy Indonesia, yang merupakan mitra terpercaya dalam solusi Infrastruktur IT dan Cybersecurity terbaik di Indonesia.
Hubungi kami sekarang atau kunjungi F5.ilogoindonesia.id untuk informasi lebih lanjut!
