Güvenli AI modelleri için yapılan baskıda, birçok kuruluş farklı gizliliğe yöneldi. Ancak kullanıcı verilerini korumak için tasarlanmış araç, inovasyonu engelliyor mu?
Geliştiriciler zor bir seçimle karşı karşıyadır: Veri gizliliğini dengelemek veya kesin sonuçlara öncelik vermek. Farklı gizlilik verileri güvence altına alabilir, ancak çoğu zaman doğruluk pahasına gelir; sağlık ve finans gibi küçük hataların bile büyük sonuçları olabileceği sektörler için kabul edilemez bir uzlaşma.
Dengeyi bulmak
Diferansiyel gizlilik, rastgele gürültü ekleyerek kişisel verileri korur ve veri kümesini korurken bireylerin tanımlanmasını zorlaştırır.
Temel kavram, gizlilik düğmesi olarak işlev gören bir parametre olan epsilon (ε) etrafında döner. Daha düşük bir epsilon değeri daha güçlü gizlilikle sonuçlanır ancak daha fazla gürültü ekler ve bu da verilerin kullanışlılığını azaltır.
Büyük bir fintech şirketindeki bir geliştirici, işlem verilerindeki küçük anormallikleri tespit etmesi gereken dolandırıcılık tespit sistemleri üzerindeki diferansiyel gizliliğin etkisinden duyduğu hayal kırıklığını dile getirdi. “Kullanıcı verilerini korumak için gürültü eklendiğinde,” diye açıkladılar, “bu ince sinyaller ortadan kayboluyor ve modelimiz çok daha az etkili oluyor.” Dolandırıcılık tespiti, küçük sapmaları tespit etmekle gelişir ve diferansiyel gizlilik bu kritik ayrıntıları kolayca maskeler.
Sağlık hizmetlerinde riskler daha da yüksektir. Örneğin, meme kanseri tespiti için kullanılan yapay zeka modelleri tıbbi görüntülerdeki ince desenlere dayanır. Gizliliği korumak için gürültü eklemek bu desenleri bulanıklaştırabilir ve potansiyel olarak yanlış teşhislere yol açabilir. Bu yalnızca teknik bir rahatsızlık değildir; hayatları riske atabilir.
Ayrımsal gizliliğin sınırlamalarına dair başlıca bir örnek 2020 ABD Nüfus Sayımı’dır. Nüfus Sayımı Bürosu ilk kez, kişisel verileri anonimleştirmek için ayrımsal gizliliği kullandı. Amaç gizlilik korumalarını güçlendirmek olsa da sonuçlar beklenmeyen sonuçlar gösterdi: Daha küçük toplulukların verilerine enjekte edilen gürültü demografik bilgileri çarpıttı ve okulların yanlış fon alması ve kamu hizmetlerinin gerçek topluluk ihtiyaçlarıyla uyuşmaması gibi sorunlara yol açtı.
Bu ikilem, çeşitli sektörlerdeki geliştiriciler için tanıdıktır. Hükümet, sağlık veya finans olsun, genellikle veri doğruluğunu korurken gizlilik yasalarını aşmaları gerekir. Denge gizliliğe doğru çok fazla kaydığında, yazılım performansının çok ötesinde dalgalanma etkileri yaratabilir.
Veri toplamayı yeniden düşünmek
Gizlilik tartışmasındaki temel soru: Gerçekten bu kadar çok veri toplamamız gerekiyor mu? Gizlilik sorunları genellikle yalnızca verileri nasıl işlediğimizden değil, aşırı toplamadan kaynaklanır. “Daha fazla veri daha iyi modeller anlamına gelir” inancı, çoğu kullanılmasa bile kuruluşları bilgi stoklamaya iter.
Örneğin, bir keresinde net bir amacı olmadan terabaytlarca kullanıcı verisi toplayan bir girişimle görüştüm. Neden diye sorulduğunda, “Bir gün buna ihtiyacımız olabilir.” dediler. Bu, gizlilik risklerini artırır ve geliştiricilere performansı düşüren büyük veri kümeleriyle yük bindirir. Veri kümesi ne kadar büyükse, onu anonimleştirmek için o kadar fazla gürültü gerekir; bu da model doğruluğunu daha da azaltır.
Daha akıllı veri toplama stratejileri her iki sorunu da çözmeye yardımcı olabilir: gizlilik endişeleri ve model doğruluğu. Şirketler yalnızca temel verilere odaklanarak anonimleştirmeye ihtiyaç duyan bilgi miktarını azaltabilir ve geliştiricilere daha temiz, daha doğru veri kümeleri sağlayabilir.
Geliştiriciler için gizli maliyetler
Zaman, bir geliştiricinin en değerli kaynaklarından biridir ve farklı gizlilik genellikle verimsizliklere yol açar. Gürültü nedeniyle kaybolan doğruluğu telafi etmek için harcanan zaman, yeni özellikler oluşturmak veya modelleri iyileştirmek için daha iyi harcanabilirdi. Bir e-ticaret şirketi, öneri motorlarına farklı gizlilik eklediğinde bunu zor yoldan öğrendi. Kullanıcı verilerini korumak için tasarlanan gürültü, kıyafet alışverişi yapan müşterilere mutfak aletleri sunmak gibi alakasız ürün önerilerine neden oldu.
Bu durum kullanıcıları hayal kırıklığına uğrattı ve yeni özelliklerin yayınlanmasını geciktirdi; bu da hızın önemli olduğu bir sektörde şirketi rekabet açısından dezavantajlı bir konuma düşürdü.
Zorluklar ve sınırlamalar
Farklı gizlilikle ilgili en önemli zorluklardan biri gizlilik ve veri faydası arasında doğru dengeyi bulmaktır. Ne kadar fazla gizlilik uygulanırsa, veriler o kadar az kullanışlı hale gelir. Bu, özellikle büyük veri kümelerindeki kesin desenlere dayanan ve küçük yanlışlıkların bile önemli sonuçları bozabileceği AI modelleri için sorunludur. Geliştiriciler, özellikle yüksek hassasiyet gerektiren sektörlerdekiler, farklı gizliliğin güvenlik ve performans arasında yapmaya zorladığı tavizler konusunda sürekli olarak endişelerini dile getirmişlerdir.
Daha akıllı gizlilik çözümlerini keşfedin
Farklı gizlilik her durum için en iyi çözüm değilse, alternatifler nelerdir? İki umut verici seçenek, federasyonlu öğrenme ve daha akıllı veri toplamadır.
Federasyonlu öğrenme akıllı telefonlar gibi merkezi olmayan cihazlarda ham verileri paylaşmadan AI modellerini eğitir. Bunun yerine, yalnızca toplanan, anonimleştirilmiş güncellemeler geri gönderilir ve model doğruluğu korunurken gizlilik korunur. Google ve Apple gibi şirketler, hassas verileri ifşa etmeden modelleri geliştiren tahmini metin gibi hizmetler için bu tekniği kullanır.
Federasyonlu öğrenme (FL), verilerin üretildiği cihazlarda yerel olarak kalmasına izin vererek veri gizliliğini artırır. Bu yaklaşım, iletim sırasında hassas bilgilerin açığa çıkmasını azaltır. Ayrıca, merkezi depolamayı en aza indirerek FL, büyük ölçekli veri ihlalleri riskini azaltır.
FL ayrıca eğitim sürecini birden fazla istemciye dağıtarak merkezi saldırı risklerini azaltır. Bir cihaz tehlikeye girse bile saldırgan yalnızca küçük bir veri bölümüne erişebilir.
Daha akıllı veri toplama yalnızca en alakalı bilgileri toplamaya odaklanır. Birlikte çalıştığım bir sağlık şirketi, büyük miktarda hasta verisi toplamaktan, yalnızca tanı modellerini iyileştirmek için gereken temel veri noktalarına odaklanmaya geçti. Daha küçük, hedefli veri kümeleriyle çalışarak, farklı gizliliğe güvenmeden yüksek doğruluk sağladılar.
Daha akıllı gizlilik için esnek düzenlemeler
GDPR ve CCPA gibi gizlilik düzenlemeleri birçok şirketi varsayılan olarak farklı gizlilik benimsemeye itti. Ancak gizlilik zorlukları tek tip değildir. Yapay zeka geliştikçe, gizlilik yasalarının da uyum sağlaması gerekir.
Konuştuğum bir AI etik danışmanı özetle şöyle dedi: “Hükümetler AI’nın evrimleştiğini kabul etmeli. Farklı gizlilik eski sorunları ele alıyor, ancak AI hızla ilerledi.” Geliştiricilerin modellerine uygun gizlilik yöntemlerini benimsemeleri için düzenlemelerin daha fazla esneklik sunması ve performanstan ödün vermeden gizliliği koruyan yaklaşımlara izin vermesi gerekir.
Yapay zeka geliştirmede gizliliğin yeniden düşünülmesi
Yapay zeka endüstrileri dönüştürmeye devam ederken, kuruluşların gizliliğe yönelik yaklaşımlarını yeniden düşünmeleri gerektiği açıktır. Farklı gizliliğin yeri vardır, ancak genellikle tasvir edildiği gibi tek tip bir çözümden uzaktır.
Federasyonlu öğrenme ve daha akıllı veri toplama gibi alternatifleri benimseyerek, geliştiriciler inovasyondan ödün vermeden doğru, gizliliği koruyan AI modelleri oluşturabilirler. Kuruluşlar, büyük miktarda veri toplamak yerine yalnızca gerekli olanı toplamaya odaklanmalıdır. Asıl soru, topladığımız verileri nasıl koruyacağımız değil, ilk etapta bu kadar çok veri toplamamız gerekip gerekmediği olabilir.