data101

1. Giriş

Bu ders notunda, veri bilimi ve iş zekası alanlarında derinlemesine bir yolculuğa çıkacağız. Amacımız, bu alanlarda hiç bilgisi olmayan birinin orta düzeyde uzmanlık kazanmasını ve kendi uygulamalarını geliştirebilecek seviyeye gelmesini sağlamaktır.


2. Veri Bilimine Derinlemesine Bakış

2.1. Veri Biliminin Tanımı ve Önemi

Veri Bilimi Nedir?

Veri bilimi, yapılandırılmış ve yapılandırılmamış büyük veri setlerinden değerli bilgiler elde etmek için matematik, istatistik, bilgisayar bilimi ve alan uzmanlığını birleştiren disiplinler arası bir alandır.

Veri Biliminin Önemi

2.2. Veri Bilimcinin Rolü ve Sorumlulukları

Ana Sorumluluklar:

Gerekli Beceriler:

2.3. Veri Bilimi Süreci

Adımlar:

  1. Problemin Tanımlanması
  2. Veri Toplama ve Erişim
  3. Veri Ön İşleme ve Temizleme
  4. Keşifsel Veri Analizi
  5. Modelleme ve Algoritma Geliştirme
  6. Model Değerlendirme ve Doğrulama
  7. Sonuçların Sunumu ve Dağıtımı

3. Veri Ön İşleme ve Hazırlama

Veri ön işleme, veri bilimi sürecinin en kritik adımlarından biridir. Kaliteli bir model için temiz ve düzenli veri şarttır.

3.1. Eksik Verilerin İşlenmesi

Eksik Verilerin Türleri:

Eksik Verileri İşleme Yöntemleri:

Aykırı Değer Nedir?

Veri setindeki diğer gözlemlerden önemli ölçüde farklı olan değerlerdir.

Tespit Yöntemleri:

3.3. Veri Normalizasyonu ve Standardizasyonu

Normalizasyon: Verileri 0 ile 1 arasına ölçeklendirme işlemidir.

Standardizasyon: Verilerin ortalamasını 0, standart sapmasını 1 olacak şekilde ölçeklendirme işlemidir.

3.4. Kategorik Verilerin Kodlanması

One-Hot Encoding:

Kategorik değişkenleri ikili (binary) değişkenlere dönüştürür.

df_encoded = pd.get_dummies(df, columns=['cinsiyet', 'ülke'])

4. Keşifsel Veri Analizi (EDA)

EDA, verileri daha iyi anlamak ve içgörüler elde etmek için kullanılan tekniklerin bütünüdür.

4.1. Tanımlayıcı İstatistikler

Ölçüler:

df['gelir'].describe()

4.2. Veri Görselleştirme Teknikleri

import matplotlib.pyplot as plt
import seaborn as sns

# Histogram
plt.hist(df['yas'])
plt.title('Yaş Dağılımı')
plt.show()

# Boxplot
sns.boxplot(x=df['gelir'])
plt.title('Gelir Dağılımı')
plt.show()

4.3. Korelasyon Analizi

Korelasyon Katsayısı (Pearson):

İki değişken arasındaki doğrusal ilişkiyi ölçer.

corr_matrix = df.corr()
sns.heatmap(corr_matrix, annot=True)
plt.show()