Veri kalitesini kaynağında iyileştirmenin önemi


Birleşik Krallık, kötü göçmenlik verilerini Avrupa Birliği’ne 2004 yılında katılan sekiz ülkeden biri olan Macaristan’a yükleyebilir. Mevcut çoğu AB ülkesinin aksine Birleşik Krallık hükümeti, 5.000 ila 13.000 kişinin gelmesini bekleyerek vatandaşlarının herhangi bir kısıtlama olmadan hareket etmesine ve çalışmasına izin verdi. her yıl. Ancak bu, göçün kontrolden çıktığı ve muhtemelen İngiltere’nin AB’den çıkışına katkıda bulunduğu suçlamalarına neden olan çok büyük bir hafife almaydı.

2021 Nüfus Sayımı sonuçlarına göre İngiltere’ye en çok insan gönderen ülke Polonya oldu ve onu Romanya izledi. Ancak Macaristan, maliyetleri düşürmenin bir parçası olarak Luton, Birmingham ve Sheffield Doncaster gibi daha küçük havalimanlarını kullanma eğiliminde olan bütçe havayolu Wizz Air’in evidir.

Ayrıca, maliyetleri düşürmek için, Ulusal İstatistik Ofisi (ONS) tarafından o sırada yürütülen Uluslararası Yolcu Araştırması, Heathrow, Gatwick ve Manchester’a odaklandı. Sonuç olarak, Wizz Air ve diğerleri tarafından gerçekleştirilen bütçe uçuşlarını kullanan Doğu Avrupalıların sayısının arttığını fark etmedi.

Avam Kamarası Kütüphanesi araştırma hizmetinde istatistikçi olan Georgina Sturge, yeni kitabında bu bölümün altını çiziyor: Kötü veri, veri toplamanın nasıl ters gidebileceğine bir örnek olarak. Yolcu araştırması 1960’larda, çok daha az insanın uluslararası seyahat ettiği, gelenlerden daha fazlasının Birleşik Krallık’tan kalıcı olarak ayrıldığı ve çoğu insanın vizeye ihtiyaç duyduğu bir zamanda kurulmuştu.

Sturge, “İnsanlar geçmişte Poznań’dan Doncaster’a büyük gruplar halinde seyahat etme eğiliminde değildi” diyor. “Maalesef, o sırada anketi yapması için oraya kimseyi yerleştirmemiş olan istatistikçiler için, insanlar tam olarak bunu yapmaya başladı.”

Sturge, Birleşik Krallık’ın sağlık, trafik kazası istatistikleri ve ONS çıktılarının çoğu dahil olmak üzere bazı alanlarda mükemmel resmi verilere sahip olduğunu söylüyor. İstatistik Düzenleme Ofisi, altın standart olarak tanımladığı onaylanmış ulusal istatistiklerin bir listesini tutar.

Milletvekilleri için yaptığı çalışmayla ilgili olarak, “Ama nihayetinde, bize bir soru sorulursa veya bir konuda brifing materyali üretmemiz gerekirse ve orada uzaktan güvenilir görünen herhangi bir veri varsa, sonunda onu büyük ölçüde kullanırız” diyor. ve personeli. “Bizim bakış açımızdan, uyarıları açıklamakla ilgili.” Bu, verilerin nereden geldiğini, nasıl toplandığını ve hangi amaçla toplandığını düşünmek, sadece elde etmek gibi teknik bir meseleden ziyade söz konusu insani süreçleri göz önünde bulundurmak anlamına gelir.

Çoğaltma krizi

Parlamenterler veriye aç olma konusunda yalnız değiller ve ne tükettikleri konusunda fazla seçici değiller. Son yıllarda, hakemli dergilerde yayınlanan araştırma sonuçlarının, bazı durumlarda verilerde hatalar olduğu veya sahte olduğu için, çalışmayı tekrarlayan başkaları tarafından yeniden üretilemediği bir çoğaltma krizi tarafından tehdit edilen birkaç bilimsel alan görüldü.
Bu tür araştırma verilerine güvenen araştırmacılar çalışmalarının zayıfladığını görebilir, ancak kağıtlar üzerinde güvenilirlik kontrolleri yapan hizmetleri kullanarak risk azaltılabilir. Sağlık hizmetleri muhabiri ve akademisyen Ivan Oransky, geri çekilen bilimsel makalelerden oluşan bir veri tabanı olan Retraction Watch’ı kurdu. Verileri yayıncılar ve şirketler tarafından EndNote, Papers ve Zotero gibi bibliyografik yönetim yazılımlarının yanı sıra dijital kütüphane hizmeti Third Iron aracılığıyla referansları kontrol etmek için kullanılır. “Daha fazla kişiyle çalışmaktan ve veritabanımızın yayıncıların kullandığı el yazması yönetim sistemlerine entegre edilmesinden memnuniyet duyarız” diyor.
Bununla birlikte, daha büyük sorunun yanlış kağıtlarda ve geri çekilmemiş verilerde yattığını ve bu nedenle gönüllü yöneticisi olduğu PubPeer gibi yayın sonrası inceleme hizmetlerini kullanmaya değer olduğunu da ekliyor. Daha genel olarak, araştırmacılara, eski ABD başkanı Ronald Reagan’ın Sovyetler Birliği ile nükleer silahsızlanma görüşmelerinde benimsediği Rus atasözü olan “güven ama doğrula”yı takip etmelerinin iyi bir tavsiye olduğunu ekliyor.
Araştırmacılar, bir proje veya daha fazla araştırma için güvenmeden önce orijinal verileri elde etmeyi ve analiz etmeyi amaçlamalıdır. Oransky, “Bu verimsiz görünebilir, ancak bir proje çok daha ilerideyken habersiz yakalanmaktan çok daha iyidir” diyor.
Diğer bir yaklaşım, bilimsel verilerin, özellikle de metinde tutulanların sınıflandırılmasını iyileştirmektir. Semantik analitik şirketi SciBite’ın çözüm ve profesyonel hizmetlerden sorumlu başkan yardımcısı Neal Dunkinson, bir genetik makalesindeki “kirpi” kelimesinin, vücutların embriyolardan nasıl geliştiğini kontrol etmeye yardımcı olan ve video oyunu karakterinin adını taşıyan sonik kirpi genine atıfta bulunabileceğini söylüyor. veya genel olarak küçük, dikenli memeliye atıfta bulunabilir.
Hollandalı bilim yayıncısı Elsevier tarafından 2020’de satın alınan Cambridge merkezli SciBite, 40.000 genin standart kimliklere etiketlenmesini otomatikleştiren bir hizmet geliştirerek kağıtların, slaytların ve elektronik laboratuvar defterlerinin aranmasını daha kesin hale getirdi. Bunu yapmak için kısaltmalar, alternatif adlar ve yazımlar ve yaygın yazım yanlışlarından oluşan listeler oluşturmuştur. Bunu mevcut malzemeye uygulamanın yanı sıra, araştırmacılardan açılır listeler veya bir yazım denetleyicinin eşdeğeri aracılığıyla etiket eklemelerini isteyen gerçek zamanlı bir seçenek sunar.
Dunkinson, yaşam bilimlerindeki kaliteli verilerin “adil” – bulunabilir, erişilebilir, birlikte çalışabilir ve yeniden kullanılabilir – olması gerektiğini söylüyor. “Şu anda yazılan bilgilerin kalitesini eleştirmiyoruz – bu, deneysel süreçte tekrarlanabilirlikle ilgili – ancak bu bilgi ne kadar kullanılabilir, düzgün etiketlenmiş mi, doğru saklanmış mı, insanlar nerede olduğunu biliyor mu? doğru formatlarda” diyor.

Mali denetimde bağımlılık zinciri

Çoğu bilimsel araştırma gibi mali denetim de diğer insanların verilerine dayanır. Kuruluşlar hesaplarından sorumludur, ancak denetçiler, doğruluğunu ve bütünlüğünü kontrol edebilmek için verileri ayıklamak zorundadır. Londra merkezli denetim teknolojisi şirketi Engine B, İngiltere ve Galler’deki Yeminli Mali Müşavirler Enstitüsü ve denetim şirketleriyle ortak kurumsal kaynak planlama paketi paketlerinden malzeme çıkarabilen ortak bir veri modeli oluşturmak için çalıştı.
Şirketin denetim ve etik başkanı Franki Hackett, sistemin bir dosyayı bu ortak modele yüklenebilmesi için doğru bir şekilde dönüştüreceğini düşündüğü şeyi sunmak için yaygın yazılım ve uygulamalara ilişkin bilgileri kullandığını, ancak yine de insan denetimlerini dahil etmenin akıllıca olduğunu söylüyor. “İnsanı döngüden çıkarabilirsiniz, ancak bunu yaptığınızda, genellikle aslına uygunlukta hatalar veya verilerin yanlış çevrilmesi veya uygunsuz dönüştürme ve yükleme ile karşılaşıyorsunuz” diyor. “Makine ile insan arasında iyi bir denge sağlamak, veri kalitesinin bu aşamasının kritik bir parçasıdır.”
Önceki bir sürümü işlediyse, Motor B’nin sistemi, yeni alanlar gibi verilerin yapısındaki değişiklikleri işaretler. Hackett, kuruluşların veri süreçlerini kurduktan sonra gözden geçirme konusunda zayıf olma eğiliminde olduklarını, bunun da bu tür değişikliklerin gözden kaçırıldığı anlamına geldiğini söylüyor. “‘Bozulmadıysa, düzeltmeyin’ zihniyeti, bu tüyler ürpertici kırılganlığı gözden kaçırabilir,” diyor.
Bir kuruluşun mali kayıtlarının doğruluğunu ve eksiksizliğini doğrulayıp doğrulayamayacaklarına karar vermek için çalışan denetçiler, genellikle tüm işlemlerin ayrıntılarını içeren defteri kebir ve borçları ve alacakları özetleyen mizan gibi aynı şeyleri kaydeden iki veri setini karşılaştırırlar. Bunlar eşleşmelidir, ancak zayıf kontrollere işaret edebilecek, işlemler için farklı tarihler gibi tutarsızlıklar bulmak yaygın bir durumdur. Hackett, üst düzey finans uzmanlarının kullanıcı adlarını ve parolalarını başkalarının kullanması için monitörlerine yapıştırarak doğrudan dolandırıcılık riskine girdiğini ancak aynı zamanda hataların daha olası hale geldiğini gördüğünü söylüyor ve iki veri kümesindeki farklı tarihler, bu tür hataları düzeltme girişimlerini gösterebilir.
Benzer şekilde Hackett, vergi şeffaflığı üzerine akademik araştırma yoluyla, bir Avrupa direktifinin bazı büyük şirketlerin yayınlamasını gerektirdiği ülke düzeyindeki verilerin genellikle küresel rakamlarla örtüşmediğini keşfetti. Gerekli ulusal verilerin parametreleri kötü bir şekilde tanımlanmış, diyor: “Temelde kullanılamaz olan bir şey üretebilirler, çoğu zaman bir halkla ilişkiler egzersizi olan bir saçmalık.” Veri toplamanın tam olarak hangi soruları yanıtlamaya çalıştığını bilme ihtiyacını gösterir.
Çeşitlilik odaklı danışmanlık eğitimi işletmesi Rockborne’un CEO’su Waseem Ali, daha önce sigorta piyasası Lloyds of London’da baş veri sorumlusu ve sağlık hizmeti sağlayıcısı Virgin Care’de analitik başkanı olarak çalıştı. Sigortacılar için kötü veriler, yanlış fiyatlandırılmış primler anlamına gelebilir, ancak sağlık hizmetlerinde bu, potansiyel olarak hayat kurtaran tavsiyelerde bulunamamak anlamına gelebilir.
Ali, “Aile geçmişime ve etnik kökenime bağlı olarak, bir tür kalp hastalığım olma olasılığı yüksek” diyor. “Hakkımda doğru kalitede verilere sahip olmak, sağlık hizmeti sağlayıcılarının daha erken müdahale etmesine olanak tanıyor, böylece Waseem gibi birinin düzenli olarak spor salonuna gitmesini ve düzgün yemek yemesini sağlayabiliyorlar.” Veriye dayalı tahmine dayalı çalışma, hastaların çıkarına olmasının yanı sıra daha sonraki büyük müdahalelerin sayısını azaltarak sağlık sistemi maliyetlerini azaltabilir.

Ali, kuruluşların uçtan uca yolculuğunu anlayarak ve iş açısından en kritik malzemeye odaklanarak veri kalitesini iyileştirmeye çalışabileceğini söylüyor. İyileştirmeler, ekiplerin kar marjları beğenilerini ve müşteri deneyimlerini nasıl hesapladıklarını standart hale getirmek gibi basit değişikliklerle yapılabilir, böylece bunlar düzgün bir şekilde karşılaştırılabilir. “Aynı istatistiğin yorumlanma biçimi nedeniyle farklı rakamlarla raporlandığı kuruluşlarda bulundum” diyor.
İki yüzyıldır işletmeler hakkında veriler yayınlayan Florida merkezli bir şirket olan Dun & Bradstreet’in baş veri bilimcisi Anthony Scriffignano, dört tür veri kalitesi görüyor: doğruluk, tamlık, zamanlılık ve doğruluk. Tamlık ve güncelliğin kontrol edilmesi nispeten kolaydır, ancak boş bir alan, verilerin gözden kaçırıldığı yerine mevcut olmadığı anlamına gelebilir – örneğin bir işletmenin telefon numarası olmaması nedeniyle – ve bugün toplanan veriler oluşturulmuş veya güncellenmiş olabilir. bir süre önce.
Doğruluğu kontrol etmek daha zordur. Scriffignano, bazı durumlarda Dun & Bradstreet’in resmi belgelerden yararlanabileceğini, ancak yetkili bir kaynak yoksa “biraz sanata dönüştüğünü” söylüyor. Bilgi sağlayan kuruluşun güvenilirliğini ve sayısal verilerin olası aralıklar içinde olup olmadığını, ancak bunların olması gerekip gerekmediğini dikkate alabilir. Bir nakliye ve depolama sağlayıcısının beş asırdan daha eski olması pek olası görünmeyebilir, ancak kamyonlarında yazdığı gibi, Aberdeen’s Shore Porters Society 1498’de kuruldu. Kilit nokta, titiz kontrol süreçlerine sahip olmaktır. “Onu öylece kanatlayamazsın” diyor.
Dördünün en zoru doğruluktur. Scriffignano, “gerçeğin, tüm gerçeğin ve yalnızca gerçeğin” üç farklı şey olabileceğine işaret ediyor; birincisi yalanla bozulur, ikincisi ihmalle bozulur ve üçüncüsü yalnızca tamamen doğru olmakla gerçekleşir.
Bir veri kümesinin üçünü de karşılayıp karşılamadığını kontrol etmenin, dağılımının istatistiksel analizi gibi yolları vardır. Bir veri kümesinin grafiği normalde ortada yüksek bir nokta ve sivrilen kenarlarda bir çan eğrisi gibi görünüyorsa, ancak bunun yerine yalnızca yüksek ortayı içeriyorsa, bu bazı verilerin hariç tutulduğunu gösterir – gerçek, ancak tüm gerçek değil . Dun & Bradstreet, Kovid-19 salgını sırasında daha küçük iflasların gözden kaçırılması veya rapor edilmemesi nedeniyle iflaslara ilişkin verilerin çarpıtıldığını gördü.
Verilerin test edilebileceği tüm yöntemlere rağmen Scriffignano, en büyük sorunların kuruluşların bilinmeyen sorunları olan verileri istemeden almasından kaynaklandığını söylüyor. “Bir veri tüketicisi olarak, onunla ne yaptığınıza bağlı olarak, muhtemelen onu nereden aldığınızı ve ona güvendiğinizi nasıl bildiğinizi düşünmelisiniz” diyor.



Source link