PYTHON İLE İSTATİSTİK

KOGLAK
3 min readFeb 19, 2021

Bu yazımda istatistiktan ve istatistik’i nasıl python ile kullanabileceğimizden bahsedeceğim.

Mean (Ortalama) Hesaplama

Mean ortalama anlamına gelmektedir. Tüm datalar toplanır ve toplam sayıya bölünür. Bu hesaplamayı numpy kütüphanesindeki np.average() metoduyla aşağıdaki gibi de yapabiliriz.

Median Nedir? Median Hesaplama

Median, data küçükten büyüğe sıralandığında ortadaki değerdir. Çift sayılı bir datada ortadaki iki değer ya bir arada raporlanır ya da ikisinin ortalaması alınır.

Örneğin aşağıdaki data küçükten büyüğe sıralandığında ortadaki data 4'tür.

Yine median’ı numpy kütüphanesindeki np.median() metodu ile hesaplayabiliriz.

Mode Nedir? Mode Hesaplama

Mode, bir datada çok sık tekrar eden değerdir. Bir datanın birden fazla mode’u olabilir.

Örneğin aşağıdaki data da sık tekrar eden iki değer vardır 20 ve 5.

Bu hesaplamayı scipy kütüphanesindeki stats.mode() ile yapabiliriz. İki adet sık tekrar eden datamız vardı 5 ve 20. Bu metot bize en küçük olanı ve adetini verir.

Numpy’de Değişiklik (Variance) Hesaplama

Variance, datadaki her bir değerin, ortalamaya uzaklığının toplamıdır. Matematiksel olarak aşağıdaki gibi ifade edilir.

Bu değer numpy kütüphanesindeki np.var() ile hesaplanabilir.

Aşağıdaki datanın ortalaması (1+2+3+4+5)/5=3'tür. Yukarıdaki matematiksel formüle göre varyans 2'ye eşittir.

[(1–3)²+(2–3)²+(3–3)²+(4–3)²+(5–3)²]/5=2

Standard Sapma (Standard Deviation) Nedir? Standard Sapma Hesaplama

Standard sapma, varyansın köküdür. Numpy kütüphanesindeki np.std() metodu ile hesaplanabilir.

Aralık Hesaplama (Range)

Aralık, maksimum ve minimum değer arasındaki farktır. amax() ve amin() metotları ile bu değerler bulunarak birbirinden çıkarılır.

Bins ve Count Kavramı

Örneğin bir market için çalışma saatlerini ele alalım. Bir gün 24 saattir. 24 saati 4'e bölerek çalışma saatlerini 0–6,6–12,12–18,18–24 şeklinde aralıklara bölebiliriz. Kısacası bin; datamızda ara aralıklar yaratmaktır.

Mesela 0–6 aralığında 100 müşteri geldiğini biliyoruz. Bu da bizim count’umuz yani sayımız olmaktadır.

Başka bir örnek üzerinden gidelim. Elimizde 1.65–1.95 boyunda olan sporcuların datası var. Biz 1.60,1.70,1.80,1.90 şeklinde binlemek istiyoruz yani 4 aralığa ayırıyoruz. 1.60 boyunda olan kişi sayısı ise bize o bin için countu yani sayıyı vermektedir.

HİSTOGRAM

Numpy kütüphanesindeki histogram() metodu ile datamızı istediğimiz sayıda binleyip, bu aralıklarda kaç data olduğunu hesaplayabiliriz. Örneğin aşağıdaki datada 0–5 arasında 5 tane data varken, 5–10 arasında 10 tane değer vardır.

Bu verileri pyplot kütüphanesi ile aşağıdaki gibi görselleştirebiliriz.

MODALITY NEDİR?

Modality, datadaki peak (en uç noktalar) sayısını belirtir.

--

--