YAZARLARIMIZ
Erhan Selim
Vergi Müfettişi
E. Gelirler Kontrolörü
erhanselim@yahoo.com



Web Kazıma Nedir ve Web’den Neler Kazınır

Web kazıma(web scraping) web’den bilgi toplamanın bir yoludur. Toplanan veriler web sitelerinde yer almaktadır. En yaygın şekli, zaten dış dünyaya açılmış, çeşitli bilgilerin bir veya daha fazla internet sitesinden toplanmasıdır. Ancak üyelik isteyen ve hatta para karşılığında hizmet sunan bazı internet sitelerinin içeriğinin de web kazıma yöntemiyle toplanması olanaklıdır. Bu yüzden bazı internet siteleri bu konuda kendi çapında tedbirler alırken bazıları işi akışına bırakmaktadır. İnternet sitenizin aldığı trafiği analiz ettiğinizde sitedeki sayfaların (5 sn, 10 sn gibi) hemen hemen aynı zaman aralığında bir ziyaretçi tarafından tek tek gezildiğini görüyorsanız, bilgileriniz hasat ediliyor olabilir.

Ziyaretçinin tarayıcı bilgisi, ziyaret ettiği sayfada gerçekleştirdiği eylemler bu konuda ipucu vermektedir.  Buna karşın algoritma tarayıcı başındaki bir insanın hareketlerini taklit ettiğinden fark edilmesi kolay değildir. Kullanılan algoritma arama motorlarından sayfaya yönlendirilmiş gibi kendisini gösterebilir. Girilen bazı sayfalarda gelişigüzel birkaç eylem yerine getirmek üzere ayarlanmış olabilir veya sayfaları ziyaret süresi farklılaştırılabilir. Belki bu duruma çok da fazla takılmamak gerekir. Hukuki yönü bir kenara bırakılırsa neticede web’e koyduğunuz hiçbir bilgi artık sadece size ait değildir.

Kazınmış Bilgiler Nerelerde Kullanılır

Toplanan bilgiler veritabanına veya dosya sistemine kaydedilebilir. Bu bilgiler pek çok alanda kullanılabilmektedir. Örneğin sosyal ağlardan toplanan bilgilerin sosyal mühendislik alanında kullanıldığını biliyoruz. Twitter’da açılan bir hastag’e gönderilen twitler toplanarak yüzbinlerce kişinin belli bir konuda ne düşündüğü analiz edilebilmektedir. Elbette bunun için bir miktar Doğal Dil İşleme’ye(Natural Language Processing) yatırım yapmış olmanız gerekir. Aksi takdirde topladığınız milyon satırlık bilgileri gözle analiz etmeye çalışıyorsanız bu zahmetli bir iş olacaktır.

Kullanılan algoritmaya bağlı olarak ziyaret edilen sayfada ekran görüntüsü alınabilmekte veya dosya indirilebilmektedir. Web kazımayla elde ettiğiniz görsel bilgiler de değerlidir. Örneğin instagram’dan veya arama motorlarından topladığınız resimler üzerinden başarılı bir yüz tanıma algoritması geliştirebilirsiniz. Bunun için de Bilgisayar Görüsü(Computer Vision) alanına ve makine öğrenmesi tarafına bir miktar yatırım yapmış olmak zorunluluk arz etmektedir.

Kazınmış bilgilerin kullanım alanı bunlarla sınırlı değildir. Çevrimiçi pazaryerlerindeki ürün fiyatlarını rutin olarak toplayıp aslında kara cumaların, mega salıların, muhteşem indirimlerin gerçekten indirim olmadığını, insanların göz göre ne şekilde kandırıldığını delilleriyle ortaya koyabilirsiniz.

Benzer şekilde emlak ilanları bulunan sitelerden alınan bilgileri analiz ederek konut kredisi faizlerinin bir devlet politikası olarak aşağı çekildiği durumlarda, insanların ev fiyatlarının üzerine ne kadar koyduğunu açıklığa kavuşturabilirsiniz. Böylece faiz indirimleriniz sadece ev sahiplerini mutlu etmeyecek ve politikanızın etkinliği ölçülebilecektir.

Dahası instagram’dan kayıtdışı reklam geliri elde edenlere ilişkin bir çalışma yapıp bunu incelemeye de dönüştürebilirsiniz ki risk analizinde kendi çalıştığımız dönemde, kendi algoritmamızla toplanan verilerle Fenomen İncelemeleri adı altında böyle bir çalışma hayata geçirilebilmiştir.

Risk Analizinde Mutluluğu Uzaklarda Aramak 

Devletimiz halen büyük büyük kurumlar kurup içerisine çeşitli unvanlardan insanlar doldurarak etkin bir mali risk analizi yapabileceğine dair inancını yitirmemiştir. Oysa risk analizi hiçbir dönem emek yoğun bir iş olmamıştır. Öncelikle teşkilat şemasının ve hangi kadroların kimlere nasip olacağının üzerinde kafa patlatılan bu kurumlarda ne yazık ki strateji, iş planlaması ve derinliği, kurumsal amaçlar ve bu amaçları destekleyecek araçlar kurumu geriden takip etmektedir.

Tam aksine mutluluğu uzaklarda aramamak gerekir. Bir örnek vermek gerekirse, yeni bakanımızın gelişi ile birlikte twitter’da kendisini matrah artırımı hastag’i ile darlayan on bin kadar kişinin bilgisinin web’den kazınması ve analiz edilmesi risk analizi için çok değerli bilgiler üretebilir. Matrah artırımı buna duyulan ihtiyacın eseridir. Birileri incelenmek istemiyorsa oralarda işler hukuka uygun gitmemiş ve bazı vergiler ödenmemiş, stoklar kayıtdışı satılmış, kasadan ve ortaklara ilişkin hesaplardan para kullanılmış olabilir. Bir daha hastag açarken bu kişilerin #stokaffı #2016 gibi daha spesifik hastagler kullanmaları işleri bir tık daha kolaylaştırabilecektir.

Matrah artırımı bir kişisel baskı alanı değil devletin takdiridir. Bir mükellef ilanen matrah artırımı istiyorsa incelenmesi gerekir. Bir müşavir matrah artırımı talep ediyorsa defterini tuttuğu veya tasdikini yaptığı mükelleflere risk analizinde değerlendirmek üzere puan kazandırabilir. Ve hatta disiplin ve etik yönden eylemi ayrıca değerlendirilmelidir. Bunun için genel müdürlükler kurulması ve içine yüzlerce adam koyulması gerekli değildir. Basit bir algoritma ve veritabanındaki sicil bilgileri ile eşleştirme yapılması yeterlidir.

Kurumların Geleceği

Bilgi Teknolojileri Genel Müdürlüğü ve Risk Analizi Genel Müdürlüğü, eski bakanımız döneminde kurulan ve fikri altyapısı kendisine atfedilen mali kurumlardır. Geçmişte hem olumlu yönlerini hem de olumsuz yönlerini yazılarımızda işlemeye ve bakanlık kurumlarımıza mali alanda bilinirlik kazandırmaya çalıştık. Bakan değişikliği ile beraber kuvvetle muhtemel bazı kurumlar kendi bilgi işlemlerini ve risk analizlerini geri isteyecektir. Teknik bir gözle bakılarak doğru bir analiz yapılmazsa ve yeni kurumların bu zamana kadar ki performansları kriter olarak belirlenirse bu talepler mazur görülebilir. Bununla beraber bazı politikalar başarısız olduğunda suçlu olan kurumlardır değildir.

Bu kurumlar kurulurken ve bazı politikalar hayata geçirilirken içlerinde bizim de olduğumuz pek çok bürokratın kamudaki kariyer planı zedelenmiş, bir kısmı görevden alınmış ve bir kısmı da görevinden kendi isteğiyle ayrılmıştır. Hatta bunların önemli bir kısmı bize göre devletin bir kaybı olarak şu an özel sektörde kariyerine devam etmektedir. Kişisel olarak zarar gördüğümüz bir konuda bile, bu bürokratların kaybının yanlış olduğu kadar faturanın bu kurumlara kesilmesinin de devlet menfaati gereği aynı şekilde yanlış olduğunu söyleyebiliriz. Sonuçta liyakatle kadroları oluşturmak, kurumları çağın gereğine uygun olarak teknoloji yoğun çalıştırmak, personeli küstürmemek ve kaybetmemek, yeniden yapılandırmak her zaman devletin elindedir. Devletimizin bu şekilde bir tasarıda da bulunması gerekir.

Yazımıza son verirken, başta matrah artırımsız meclisten geçen yapılandırma kanunu olmak üzere emeklerinden ötürü eski Bakanımız Sayın Berat Albayrak’a teşekkür eder, yeni Bakanımız Sayın Lütfi Elvan’a görevinde başarılar dileriz.     

13.11.2020

Kaynak: www.MuhasebeTR.com
(Bu makale kaynak göstermeden yayınlanamaz. Kaynak gösterilse dahi, makale aktif link verilerek yayınlanabilir. Kaynak göstermeden ve aktif link vermeden yayınlayanlar hakkında yasal işlem yapılacaktır.)

>> YIL SONU KAMPANYASI: Muhasebecilere Özel Web Sitesi 1.249 TL yerine 999 TL + KDV
     Ayrıntılar için tıklayın.

>> Duyurulardan haberdar olmak için E-Posta Listemize kayıt olun.

>> SGK Teşvikleri (150 Sayfa) Ücretsiz E-Kitap: hemen indir.

>> MuhasebeTR mobil uygulamasını Apple Store 'dan hemen indir.

>> MuhasebeTR mobil uygulamasını Google Play 'den hemen indir.


GÜNDEM