Akıllı kask teknolojisi, derin ses sahtekarlıklarıyla mücadelenin geleceğine işaret ediyor

Ses klonlama hızlı, ucuz ve ikna edici hale geldi. Üretken modeller, yalnızca birkaç dakikalık kayıtlı konuşmayla bir kişinin sesini eşleşen ton, ritim ve aksanla yeniden yaratabilir.

Bu riskin üstesinden gelmek için Texas Tech Üniversitesi’ndeki bir araştırma ekibi, ses doğrulamayı fiziksel konuşma eylemine bağlayan bir yöntemi test etti. Çalışmada çene ve yanak hareketlerinin kimlik kanıtı olarak kullanılıp kullanılamayacağı inceleniyor. Sistem, bu ince hareketleri ses verileriyle birleştirerek hem sesi hem de kaynağı doğruluyor. Ataletsel konuşma doğrulama adı verilen yaklaşım, konuşurken ağzın nasıl hareket ettiğini ölçmek için hareket sensörlerini kullanıyor.

sesli kimlik doğrulama

Sesli kimlik doğrulamanın neden güçlendirilmesi gerekiyor?

Yardım masası dolandırıcılıklarında, sahte yönetici çağrılarında ve hileli onaylarda sentetik sesler zaten kullanılıyor. GenAI geliştikçe bu saldırıların da artması muhtemeldir. Sorun, geleneksel korumaların fiziksel davranışa değil dijital kanıtlara bağlı olmasıdır.

Filigranlama, konuşma modeli geliştiricilerinin ses çıkışına gizli imzalar yerleştirmesini gerektirir; bu, açık kaynaklı modellerde nadir görülen bir durumdur. Yapay zeka tabanlı dedektörler, sahte olanları ortaya çıkaran eserleri arar ancak algoritmalar geliştikçe bu izler ortadan kaybolur. Dijital imzalar özgünlüğü kanıtlayabilir ancak çok az iletişim sistemi bunları destekler.

Kimlik doğrulamak için yalnızca sese bağlı olmak güvenilmez hale geliyor.

Prototip nasıl çalışır?

Ekip, ağzın etrafında üç eylemsizlik sensörü bulunan kask monteli bir prototip oluşturdu: biri çenenin altında ve ikisi yanakların yakınında. Sensörler, kişi konuşurken hızlanma ve dönüşü kaydeder ve her kişi için bir hareket profili oluşturur.

Deney, saldırganların kamuya açık kayıtları ve deepfake araçlarını kullanarak zaten birinin sesini taklit edebileceğini, dolayısıyla bu senaryonun modellenmediğini varsayıyor. Bunun yerine çalışma, ağız hareketlerini atalet sensörleriyle takip edip doğrulayarak başka bir savunma katmanı ekliyor. Sesi kopyalayabilen bir saldırganın aynı zamanda kişinin çene hareketlerini de eşleştirmesi gerekir; bu da zordur çünkü bu tür hareket verileri herkese açık değildir.

Sistem sürekli çalışır. Kullanıcı konuşurken, örneğin güvenli bir sunucudaki atalet verilerini gerçek zamanlı olarak analiz eder. Başarısız kontroller uyarıları tetikler ancak oturumu hemen sonlandırmaz. Bu, yanlış reddetmeleri ve gereksiz kesintileri önlemeye yardımcı olur. Sistem veya alıcı, anormalliklerin ne sıklıkta ve ne kadar ciddi olduğunu izler ve bir kimliğe bürünme girişimi önerirlerse çağrıyı sonlandırabilir, eylemleri geciktirebilir veya başka bir doğrulama adımı isteyebilir.

Kayıt sırasında sistem bir temel hareket profilini saklar. Daha sonra yeni konuşma verileri bu referansla karşılaştırılır ve bir eşleşme kimliği doğrular. Sensörler, havacılık, savunma veya acil durum müdahalesi gibi başlığın halihazırda kullanıldığı ayarlara uyan bir kask kayışına takılır.

Kırk üç gönüllü otururken, yürürken ve merdiven çıkarken konuşma oturumlarını tamamladı. Sensörler yüksek frekanslı hareket verilerini yakaladı ve ekip, çene hareketinin hızını, yönünü ve ritmini tanımlayan istatistiksel ve frekans özelliklerini çıkardı.

İki model test edildi: temel olarak bir Destek Vektör Makinesi (SVM) ve zamansal modeller için Uzun Kısa Süreli Bellek (LSTM) ağı. Performans, daha düşük değerlerin daha az uyumsuzluğu gösterdiği eşit hata oranı (EER) ile ölçülmüştür. LSTM en iyi performansı gösterdi. Çene sensörü en güçlü sinyali sağladı ve yan sensörler daha küçük kazançlar ekledi. Yürüme veya tırmanma gibi normal hareketler tanımayı etkilemedi.

Video odaklı saldırı değerlendirmesi

Araştırma, atalet verilerinin kamuya açık olmadığı durumlarda en gerçekçi tehdidi temsil eden video tabanlı kimliğe bürünme saldırısını tanıtıyor ve test ediyor.

Bu senaryoda, saldırgan bir hedefin röportajlar veya çevrimiçi videolar gibi halka açık görüntülerini topluyor ve sensörlerin yerleştirildiği aynı noktalarda ağız ve yanakların üç boyutlu olarak nasıl hareket ettiğini haritalamak için gelişmiş yüz izleme yazılımı uyguluyor. Bu hareketlerden, prototipin konuşma sırasında kaydedeceği şeyleri taklit etmek için sentetik hareket sinyalleri üretiliyor.

Çevrimiçi videoların kalitesi, çözünürlüğü ve kare hızı farklılık gösterdiğinden, sentetik veriler doğrulama modeli aracılığıyla işlenmeden önce süreç, gerçek dünyadaki değişkenliği yansıtacak şekilde çeşitli koşullar altında tekrarlanır. Bu değerlendirme, ağız hareketi biyometrisinin test edilen koşullar altında saldırılara direndiğini gösteriyor ve bu potansiyel tehdidin kapsamlı bir değerlendirmesini sağlıyor.

Güçlü yönler ve potansiyel uygulamalar

Sesi ağız hareketiyle bağlamak, saldırganın her iki akışı aynı anda yeniden üretmesi gerekeceğinden kimliğe bürünme maliyetini artırır.

Personelin halihazırda kulaklık veya kask taktığı ortamlarda sürekli doğrulama, insanların iletişim şeklini değiştirmeden arka planda çalışabilir. Bu yaklaşım aynı zamanda endüstriyel veya saha çalışmalarında eller serbest kontrolleri de destekleyebilir.

Teknik aksaklıklar ve zorluklar

Umut verici sonuçlara rağmen, çalışma bazı pratik sınırlamaları vurgulamaktadır. Deney, sınırlı demografik çeşitliliğe sahip küçük bir katılımcı grubunu içeriyordu. Sistemin farklı diller, aksanlar ve yaş gruplarında ne kadar iyi performans gösterdiğini doğrulamak için daha büyük, daha çeşitli veri kümelerine ihtiyaç duyulacaktır.

Donanım tasarımı başka bir zorluktur. Prototip hantaldır ve esas olarak test için uygundur. Daha geniş kullanım için sensörlerin minyatürleştirilmesi ve sıradan iletişim ekipmanına entegre edilmesi gerekecek. Askeri veya endüstriyel ortamların dışındaki kullanıcıların yüze yakın duran giyilebilir sensörleri benimsemesi pek olası değildir.

Sistem aynı zamanda tutarlı yerleştirmeye de bağlıdır. Kayıştaki küçük kaymalar veya gevşek bağlantı parçaları okumaları değiştirebilir, bu da hatalı reddet veya daha düşük doğrulukla sonuçlanabilir.

Son olarak çalışma, standart videoya dayalı saldırıları test etti ancak gelecekteki girişimlerde, daha ayrıntılı hareket verilerini yeniden üretebilen yüksek hızlı kameralar veya hareket yakalama sistemleri kullanılabilir.

Source link