İstatistiğe Giriş: Özet İstatistikleri

Enes Eren
4 min readFeb 21, 2023

--

İstatistik nedir?

İstatistik bir veri toplama ve veriyi analiz etme çalışmasıdır.

İstatistik ikiye ayrılır:

  • Açıklayıcı istatistik ve özet istatistiği. Yani üzerinde çalıştığımız veriyi açıklayan ya da özetleyen. Örneğin, Ankara’da işlenmiş suç sayıları ve bunların kategorilerine göre oranları, veya İstanbul’da ortalama maaş.
  • Çıkarımsal istatistik; Bir örneklem üzerinden veri toplar ve o veriyle tümevarımsal sonuçlar elde eder. Örneğin, Kaç kişi karşılaştığı sosyal medya reklamlarından kıyafet satın alıyor?

İstatistik ile neler yapılır?

İstatistik aslında hayatımın tam da içinde olan bir şeydir. Örneğin, Türkiye’deki ortalama maaşı hesaplarken, veya bir şirketin zarar etmemesi için haftada kaç müşteriye ihtiyacı olduğu, ya da bir uçak üretilirken. Kısaca istatistik sandığımızdan çok daha yakınımızda.

İstatistiğin sınırlamaları

İstatistik spesifik, ölçülebilir sorulara ihtiyaç duyar:

  • Rock müzik Pop müzikten daha fazla popüler midir?
  • Ortalama olarak kadınlar erkeklerden fazla mı yaşar?

İstatistik bu sorulara evet veya hayır olarak cevap verebilir. Fakat neden sorusuna cevap veremez.

İstatistik hangi veri tipiyle çalışır?

istatistik, veri tipi sürekli (sayısal) olan değerler ile çalışır: Hisse fiyatları, maaş, yaş, boy, günlük kaç birim kahve tüketiğiniz vb.

Bu sayısal değerleri görselleştirmede en çok kullanılan grafik tipi ise Saçılma Grafiği. Saçılma Grafiği ile sayısal değerlerin birbiriyle nasıl ilişkili olduğunu görebiliriz.

İstatistik, veri tipi kategorik (metinsel) olan değer ile de çalışır.

Kategorik değerler ikiye ayrılır: Sıralı ve Sırasız.

  • Sırasız değerler: Göz rengi (Kahverengi, siyah, yeşil),
  • Sıralı değerler: Zayıftan güçlüye doğru giden anket cevapları (Kesinlikle Hayır, Kısmen Hayır, Kararsızım, Kısmen Evet, Kesinlikle Evet)

Merkezi Eğilim Ölçüleri

Özet istatistiğidir, bize veri setini özetleyen, veri setiyle ilgili hızlıca bilgi sahibi olabileceğimiz değerleri verir.

Ortalama

Bütün değerlerin sayısı ile bütün değerlerin toplamının bölünmesiyle bulunur.

Örneğin 4 ilçeli bir şehirdeki ilçe başına düşen yıllık suç sayısına bakalım.

Medyan

Sıralı bir serideki ortanca değer.

Eğer bu serideki eleman sayısı tek ise direkt ortadaki değeri alabilirsiniz, eğer çift ise ortadaki iki elemanın ortalamasını almalısınız.

Mod

Bir serideki en çok tekrar eden değer. Eğer serideki bütün değerler özel ise mod yoktur.

Merkezi Dağılım Ölçüleri

Veri noktalarının birbirinden ne kadar farklılaştığını gösteren dağılım ölçüleridir. Elimizdeki verinin çeşitliliğini ölçer.

Ranj (Range)

En büyük ve en küçük değerlerin farkıdır.

Varyans

Her bir veri noktasının ortalamaya olan uzaklığıdır. Değerlerin ne kadar yayılmış olduğunu gösterir. Varyans hesaplamak için;

  • Önce ortalama alınır,
  • Daha sonra her bir gözlem değerinin ortalamaya göre farkı alınır,
  • Bu farkların karesi alınır,
  • Elde edilen kareler toplanır ve gözlem sayısına bölünür.

Yukarıdaki formül elinizdeki tüm veri setini ölçmek için kullanılmalıdır. Eğer bir örneklem üzerinden hesaplama yapacaksanız son aşamadaki gözlem sayısını bir eksik olarak hesaplayınız.

Standart Sapma

Varyansın kareköküdür. Eğer standart sapma küçükse veriler ortalamaya yakın yerlerde dağılmışlardır. Bunun tersi olarak standart sapma büyükse veriler ortalamadan uzak yerlerde dağılmışlardır. Bütün değerler aynı olursa standart sapma sıfır olur.

Eğer standart sapma sıfıra yakınsa her bir veri noktası ortalamanın etrafında dağılmıştır. Fakat burada sonuç yüksek çıktığından her bir veri noktasının ortalamadan uzak dağıldığını görebiliyoruz.

Çeyrekler (Quartiles)

Veri setini eşit olarak bölen noktalardır.

Çeyrekler Arası Açıklık (Interquartile Range — IQR)

Veri setinin orta yarısının aralığıdır. Yani %25 ve %75'lik dilimlerin arasındaki %50'liğin aralığıdır.

Son

Beni Linkedin ve Github üzerinden takip edebilirsiniz.

--

--