Bir grup İngiliz akademik araştırmacı, tuş vuruşlarının sesini kaydederek sırları ortaya çıkarmak için derin bir öğrenme modeli geliştirdi ve yüzde 95’e varan başarı elde ettiğini iddia etti.
Tuş vuruşlarını seslerinden başarılı bir şekilde belirlemek, kullanıcı parolalarına karşı bir yan kanal saldırısı oluşturur.
arXiv’de yayınlanan bir ön yayında, Joshua Harrison, Ehsan Toreini ve Maryam Mehrnezhad, en iyi başarılarının, modellerini yakındaki bir telefonda kaydedilen tuş vuruşlarını sınıflandırmak için kullanmak olduğunu, ancak bir Zoom araması sırasında tuş vuruşlarını kaydetmenin bile yüzde 93 doğruluğa ulaştığını söyledi.
Tam otomatik “akustik yan kanal saldırısı” (ASCA), modeli hedef dizüstü bilgisayarda kaydedilen tuş vuruşlarına karşı eğitmeye dayanıyordu: “Dizüstü bilgisayarın tuşlarının 36’sı kullanıldı (0-9, az) ve her birine 25 kez basıldı. baskı ve parmakta değişen bir sıra ve 25 baskının tümünü içeren tek bir dosya”, kağıt belirtiyor.
Bu, ASCA’nın çalışması için hedefin makinesine erişmesi gerektiği anlamına gelir, böylece saldırgan belirli tuş vuruşlarını yaptıkları sesle ilişkilendirebilir.
Ancak araştırmacılar, deneysel makine olarak bir MacBook Pro 16 inç kullanarak, mevcut çeşitlerin tümü aynı klavyeyi kullandığından şunları yazdı: “Küçük sayı
herhangi bir zamanda mevcut modellerin sayısı (şu anda üçü, hepsi aynı klavyeyi kullanıyor), tek bir dizüstü bilgisayara yapılan başarılı bir saldırının çok sayıda cihazda geçerli olabileceği anlamına geliyor”.
Araştırmacılar, Google tarafından geliştirilen CoAtNet görüntü sınıflandırma derin öğrenme modelini seçtikleri için sınıflandırma, ses üzerinde değil, sesin görsel bir temsili üzerinde gerçekleştirildi.
Yakalanan klavye sesleri, bir sinyalin zamanla ve farklı frekanslarda değişerek yüksekliğini temsil eden “mel-spektrogramlar” adı verilen görsel bir sunuma dönüştürüldü.
Araştırmacılar, tuş vuruşu seslerinin, tuşun klavyedeki konumuna bağlı olarak biraz değiştiğini söyledi; Kanıt yoluyla, çoğu yanlış sınıflandırmanın basılana bitişik anahtarı tanımladığını eklediler.
İlginç bir şekilde, kullanıcının yazma stili de sınıflandırmanın doğruluğunu etkiledi: kullanıcı bir dokunmatik daktilocu olduğunda model yalnızca üçte ikisi kadar doğruydu.
Joshua Harrison, Durham Üniversitesi’nden; Ehsan Toreini, Surrey Üniversitesi’nden; ve Marya Mehrnezhad, Londra Royal Holloway Üniversitesi’nden.