Veri Bilimi Nedir? Veri Bilimci Nasıl Olunur?

Veri bilimi, verileri toplama, analiz etme ve özetleme gibi işlemleri yaparak, insanların veya makine öğrenimi modellerinin karar vermelerine yardımcı olmak için bilgi elde etmeye yönelik bir disiplindir. Bu bilgi, genellikle pazarlama, üretim, finans veya hizmetler gibi farklı alanlarda kullanılır.

Netflix, veri bilimi ve makine öğrenimi tekniklerini kullanarak, abonelerinin izlediği içerikleri analiz ederek, onlar için önerilerde bulunuyor. Örneğin, bir abonenin izlediği diziler ve filmler, onun ilgi alanlarını ve tercihlerini belirler. Netflix, bu verileri kullanarak, abonelere ilgilerine uygun içerikleri öneriyor.

Ayrıca, makine öğrenimi kullanarak, orijinal içeriklerin yapımına karar veriyor. Örneğin, abonelerin hangi türleri izlediğini ve hangi içeriklerin popüler olduğunu analiz ederek, yapacakları içerikleri belirliyor. Bu sayede, abonelerinin beğenecekleri içerikleri üretebiliyor ve bunların başarısını garantileyebiliyor.

Netflix’in veri bilimi kullanımı, diğer şirketler için de bir örnek oluşturmuş ve veri bilimi kullanımının ne kadar etkili olabileceğini göstermiştir.

Veri Bilimi Alanında Kariyer

Veri bilimi alanında kariyer yapmak için aşağıdaki beceriler ve bilgiler gereklidir:

  • Matematik ve istatistik: Veri bilimi, matematik ve istatistik bilgisi gerektirir. Veri analizi, tahmin yapmak, modeller oluşturmak ve sonuçları değerlendirmek için bu bilgiye ihtiyaç vardır.
  • Programlama: Python, R veya SQL gibi programlama dillerini bilmek önemlidir. Veri toplama, temizleme ve analiz işlemleri yapmak için bu diller kullanılır.
  • Veri yapıları ve veritabanları: Veri bilimi, veri yapılarını ve veritabanlarını kullanmayı gerektirir. Bu bilgi, verilerin toplanması ve saklanması için gereklidir.
  • Makine öğrenimi: Veri bilimi, makine öğrenimi tekniklerini kullanmayı gerektirir. Bu teknikler, verilerin analiz edilmesi ve tahmin yapmak için kullanılır.
  • İş analitiği: Veri biliminin temel amacı, iş analitiği yapmaktır. Bu nedenle, iş analitiği konusunda bilgi ve deneyim sahibi olmak önemlidir.
  • Problem çözme becerisi: Veri bilimi, problem çözme becerisi gerektirir. Verilerin analiz edilmesi ve çözümlerin bulunması için bu beceriye ihtiyaç vardır.
  • İletişim: Veri bilimi, verilerin sonuçlarının ve çıkarımlarının anlaşılır ve etkili bir şekilde sunulmasını gerektirir. Bu nedenle, iyi bir iletişim becerisi önemlidir.

Veri Bilimi Alanında Yapılan Çalışmalar

Veri bilimi alanında yapılan çalışmalar arasında:

  • Veri toplama ve temizleme: Verilerin toplanması ve temizlenmesi, doğru analizler yapmak için önemlidir. Bu işlemler, web scraping, SQL sorguları, API’lar gibi yöntemlerle yapılır.
  • Veri analizi: Verilerin özelliklerini ve kalıplarını keşfetmek için kullanılan yöntemler arasında veri görselleştirme, istatistiksel analiz ve makine öğrenimi yer alır.
  • Makine öğrenimi: Verilerin kullanılarak, makine öğrenimi modelleri oluşturulur. Bu modeller, örneğin tahmin yapmak, kategorize etmek veya tanımlamak için kullanılabilir.
  • Model seçimi ve türetilen sonuçların değerlendirmesi: Çeşitli makine öğrenimi modelleri kullanılarak verilerin analiz edilmesi ve en uygun modelin seçilmesi.
  • Uygulama ve sonuçların sunumu: Elde edilen bilgilerin, çeşitli platformlar veya raporlar aracılığıyla sunumu. Bu bilgiler, pazarlama, üretim, finans veya hizmetler gibi farklı alanlarda kullanılabilir.

Veri Bilimi ile Saldırı Tespiti

Bu yazımda sunuculara brute force attack ve sql injection gibi yöntemler ile sızmaya çalışan kullanıcıları tespit etmek için kullandığım yöntemi sizinle paylaşacağım.

Bu yöntem sayesinde sunucu güvenliğini arttırıp aylık olarak bana atanmış bandwidth’ten tasaruf edebiliyorum. En önemlisi ise sunucunun sürekli ataklara cevap vermesini engelleyip gerçek isteklere cevap verme süresini arttırıyorum.

Öncelikle bu saldırıları anlamak için Python ile sunucunun log dosyalarını okuyup veritabanına kaydeden bir script hazırladım. Bu script sayesinde logları istediğim şekilde parse edip anlamlı hale getirebiliyorum.

Veritabanına kaydettiğim logları Metabase uygulamasını kullanarak görselleştiriyorum.

Aşağıdaki görselde sunucuya gelen isteklerin sayısını görebilirsiniz. Bu görsel 15 günlük trafiği göstermektedir.

tüm trafik

Bu görselde tüm trafik gösterilmektedir. Görüldüğü üzere gece 12-01 arasında anormal bir artış görünmektedir. Tabi bu trafiğik normal olabilir. Anormal istekler trafiğin yüksek olduğu saatlerde olacak diye bir şey söz konusu değil. Günün o saatinde trafiği arttıracak reklam verilmiş olabilir. Anormal istekleri çektiğimizde bunu anlayacağız.

Anormal istekleri görüntülediğimizde aşağıdaki gibi bir grafik çıkmaktadır. Bu grafik sunucuya yapılan isteği ve bu isteğin sunucu tarafında bir karşılığı olmadığını göstermektedir.

anormal trafik

Gördüğünüz gibi 20:11 sularında toplamda anormal 700 istek gönderilmiş. Bu iki grafiği birleştirdiğimizde farklı zamanlarda atak yapıldığı sonucuna varabiliriz. (Her renk farklı günü göstermektedir) Atak yapılan zamanları aşağıdaki gibi işaretleye biliriz.

anormal sayılabilecek değerler

Bu da demek oluyor ki saldırı zamanı her gün bir önceki güne göre 1 er saat ileriye atılıyor.

Anormal isteklerli kullanıcı bazında görselleştirdiğimiz zaman aşağıdaki gibi bir grafik çıkmaktadır.

kullanıcı bazında anormal trafik

Gördüğünüz gibi ortalama 4 günde bir farklı iplerden ve 1 er saat öteleyerek sunucuya anormal istekler yapılıyor. Bir ip’yi ele aldığımızda yapılan istekler aşağıdaki gibidir. Bu konudaki çıkarımlarımız tutarlı olmuş oldu 🙂

anormal istekler

Ataklardan korunmak için kullandığım yöntemleri başka bir blog yazımda ele alacağım.

Bu tür analizleri firmalarda yapmaktayım. Eğer sizin de bu tür analizlere ihtiyacınız varsa (kesinlikle vardır 🙂 ) benimle iletişime geçebilirsiniz.