HackSynth, Bayrağı Yakalama (CTF) zorluklarını insan müdahalesi olmadan çözmek için Büyük Dil Modellerinden (LLM’ler) yararlanan özerk bir penetrasyon testi aracısıdır.
İki modüllü bir mimari kullanır: komutları oluşturmak için bir planlayıcı ve gelecekteki kararları almak ve stratejileri uyarlamak için geçmiş komutlardan gelen bağlamsal bilgileri kullanarak bilgisayar korsanlığı sürecinin mevcut durumunu anlamak için bir özetleyici.
Güvenliği sağlamak amacıyla HackSynth, sırasıyla yetkisiz etkileşimleri önleyen ve sistemleri koruyan bir güvenlik duvarı tarafından korunan konteynerli bir ortamda çalışır.
Katılımcıların bayrakları ortaya çıkarmak için güvenlik açıklarını buldukları oyunlaştırılmış güvenlik alıştırmaları olan Bayrağı Yakalama (CTF) zorlukları için Büyük Dil Modellerinin (LLM’ler) kullanımı.
CTF’lere yönelik geleneksel araçlar buluşsal yöntemlere dayanır ve insan benzeri akıl yürütmeden yoksundur; burada LLM’ler daha uyarlanabilir çözümler sunar. LLM’ler tarafından desteklenen LLM temsilcileri, çevrelerini algılayabilir, kararlar verebilir ve harekete geçebilir.
API güvenlik açığı ve Sızma Testi için En İyi Uygulamalar Konulu Ücretsiz Web Semineri: Ücretsiz Kayıt
Mevcut LLM temsilcileri, ayrıcalık yükseltme ve güvenlik açığı tanımlama gibi alanlarda başarı gösterdi. Bununla birlikte, bu ajanlar sıklıkla insan müdahalesini gerektirir ve insan uzmanların tam özerkliğinden yoksundur.
HackSynth, siber güvenlik zorluklarını çözmek için tasarlanmış özerk bir LLM tabanlı sistemdir ve güvenli bir kapsayıcı ortamda komutlar üreten bir Planner modülünden ve kapsamlı bir eylem ve gözlem geçmişini koruyan bir Summarizer modülünden oluşur.
Sistem, eylemlerini sürekli olarak iyileştirmek ve hedeflerine ulaşmak için bir geri bildirim döngüsünden yararlanır.
Temel Linux komutlarından karmaşık ikili istismar ve kriptografi tekniklerine kadar çok çeşitli siber güvenlik zorluklarını kapsayan HackSynth’in etkinliğini değerlendirmek için PicoCTF ve OverTheWire adlı iki kıyaslama önerildi.
Çalışma, HackSynth’in parametrelerini optimize ederek CTF kıyaslamalarındaki performansını artırıyor. Daha büyük bir gözlem penceresi performansı bir noktaya kadar artırırken, daha yüksek sıcaklıklar ve en yüksek değerler değişkenliği artırabilir ancak güvenilirliği azaltabilir.
GPT-4o ve Llama-3.1-70B her iki testte de üstün performans sergiliyor; GPT-4o daha hızlı tepki süreleri gösteriyor. Yinelemeli planlama ve özetleme, performansı önemli ölçüde etkiler; daha yüksek performanslı modeller ek döngülerden daha fazla yararlanır.
Komut kullanımı modeller arasında farklılık gösterir; Qwen2-72B, yükseltilmiş ayrıcalıklı komutlara yönelik bir eğilim sergileyerek potansiyel güvenlik risklerini vurgular.
HackSynth, tipik olarak etkileşimli arayüzler gerektiren görevler için genellikle komut satırı araçlarından yararlanarak benzersiz sorun çözme stratejileri sergilerken, başlangıçtaki sorun çözme adımlarına güvenmesi, etkisiz stratejilere takılıp kalmaya yol açabilir.
Hedeflerin halüsinasyonu, yürütme ortamında arama yapma ve kaynakların tükenmesi gibi beklenmedik davranışlar, bu tür otonom aracıların konuşlandırılması sırasında sağlam güvenlik önlemlerine olan ihtiyacın altını çiziyor.
Görsel veri analizi, internet aramaları ve etkileşimli terminal yönetimi için özel modüller dahil edilerek daha da geliştirilebilecek, gelecek vaat eden bir otomatik penetrasyon testi çerçevesidir.
RAG ve RLHF gibi ince ayar teknikleri performansını optimize edebilir. Karşılaştırmalı değerlendirmelerin karmaşık platformlara ve canlı CTF etkinlikleri de dahil olmak üzere gerçek dünya senaryolarına genişletilmesi, titiz bir değerlendirme sağlayacaktır.
KOBİ ve MSP Siber Güvenlik Liderleri için 2024 MITRE ATT&CK Sonuçlarından Yararlanma – Ücretsiz Web Seminerine Katılın