İnteraktif PCA Analizi

1

Ham Veri İstatistikleri

PCA analizine başlamadan önce, ham verilerimizin temel istatistiklerini inceleyelim.

2

Ortalama Merkezleme (Mean Centering)

Her değişken için ortalamayı hesaplıyoruz ve her değerden bu ortalamayı çıkarıyoruz. Bu işlem verilerin merkezini orijine taşır.

Formül: X_centered = X - μ

Ortalama Merkezlenmiş Veri (İlk 5 Satır)

3

Standartlaştırma (Z-Score Normalization)

Değişkenler farklı ölçeklerde olabilir. Standartlaştırma ile tüm değişkenleri aynı ölçeğe getiriyoruz (ortalama=0, standart sapma=1).

Formül: Z = (X - μ) / σ

Standartlaştırılmış Veri (İlk 5 Satır)

4

Kovaryans Matrisi

Kovaryans matrisi, değişkenler arasındaki ilişkileri gösterir. Pozitif değerler pozitif korelasyonu, negatif değerler negatif korelasyonu gösterir.

Formül: Cov(X,Y) = Σ(X_i - X̄)(Y_i - Ȳ) / (n-1)

Kovaryans Matrisi

5

Korelasyon Matrisi

Korelasyon matrisi, standartlaştırılmış kovaryans matrisinin bir formudur. Değerler -1 ile 1 arasında değişir.

Formül: r = Cov(X,Y) / (σ_X × σ_Y)

Korelasyon Matrisi

6

Özdeğer ve Özvektör Hesaplaması

Kovaryans matrisinin özdeğerleri (eigenvalues) ve özvektörleri (eigenvectors) hesaplanır. Özdeğerler her ana bileşenin açıkladığı varyansı gösterir.

Formül: Cov × v = λ × v
Burada λ özdeğer, v özvektördür.

Özdeğerler (Eigenvalues)

Özvektörler (Eigenvectors)

7

Açıklanan Varyans & Boyut İndirgeme

Her ana bileşenin toplam varyansın yüzde kaçını açıkladığını hesaplıyoruz. Kümülatif varyans, kaç bileşenin yeterli olduğunu belirlememize yardımcı olur.

Formül: Açıklanan Varyans = λ_i / Σλ × 100%

PCA'nın Gücü: Boyut İndirgeme

PCA'nın bir faydası, temel bileşenlerle ilişkili varyansları inceleyebilmemizdir.

Genellikle ilk birkaç (k < m) temel bileşenle ilişkili büyük varyanslar ve ardından keskin bir düşüş bulunur.
Bu, en ilginç dinamiklerin yalnızca ilk k boyutta gerçekleştiği sonucuna varmamızı sağlar.
Daha az önemli olan (düşük varyanslı) eksenleri atma sürecine boyut indirgeme denir.
Bu süreç, yüksek boyutlu verilerdeki gizli, basitleştirilmiş dinamikleri ortaya çıkarmamıza yardımcı olur.

Açıklanan Varyans Bar Grafiği (Dirsek Noktası)

Dirsek Noktası: Grafikte keskin düşüşün başladığı nokta, önemli bileşenleri seçmek için bir ipucudur.

Scree Plot

Kümülatif Varyans

8

Ana Bileşenler (Principal Components)

Orijinal veriyi özvektör matrisine yansıtarak ana bileşen skorlarını elde ediyoruz. Bu yeni koordinat sisteminde veriler maksimum varyansı gösterecek şekilde döndürülmüştür.

Formül: PC = Z × V
Z: Standartlaştırılmış veri, V: Özvektör matrisi

Ana Bileşen Skorları (İlk 5 Satır)

9

Yüklemeler (Loadings)

Yüklemeler, orijinal değişkenlerin her ana bileşene olan katkısını gösterir. Yüksek mutlak değerli yüklemeler, o değişkenin ilgili bileşenle güçlü ilişkisini gösterir.

Loading Matrisi

10

Özellik Önem Analizi (Feature Importance)

Hangi Özellik Ne Kadar Önemli?

Her özelliğin PCA'daki genel katkısını hesaplıyoruz. Bu analiz, hangi değişkenlerin verideki varyansı en çok açıkladığını gösterir. Önemlilik skoru, her özelliğin tüm ana bileşenlere olan katkısının ağırlıklı ortalamasıdır.

Formül: Importance_j = Σ (|loading_ij|² × explained_variance_i)
Her özelliğin katkısı, ilgili bileşenin açıkladığı varyansla ağırlıklandırılır.

Özellik Önem Sıralaması

Özellik Katkı Grafiği

11

PCA Sezgiselliği: Varyansı Maksimize Eden Yön

Sezgisel Cevap: "En Önemli" Bilgi Nerede Saklıdır?

İyi ölçümler yaptığımızı varsayarsak, ölçüm uzayımızdaki en büyük varyansa sahip yönlerin, ilgilendiğimiz dinamikleri içerdiğini varsayarız. Verideki en geniş yayılım (en yüksek varyans), verinin ana hareket yönünü gösterir. Bu yönden sapmalar ise gürültüdür.

Sinyal-Gürültü Oranı (SNR): SNR = σ²(sinyal) / σ²(gürültü)

Varyans Maksimizasyonu: PCA Sezgiselliği

İlk iki değişken üzerinde en yüksek varyans yönü (PC1) gösterilmektedir.

12

Bakış Açısını Değiştirmek: Önce ve Sonra

Varyansı Maksimize Eden Yönü Bulmak

Verimizdeki en yüksek varyansın yönü, genellikle ölçtüğümüz orijinal eksenler (örneğin x ve y eksenleri) değildir. Amacımız, bu naif temeli, verinin en uzun eksenine paralel olacak şekilde döndürmektir. Bu yeni yön (p*), sistemin ana dinamiğini ortaya çıkarır.

Önce (Orijinal Eksenler)

Orijinal Eksenler (Naïve Baz)

Sonra (Temel Bileşenler)

Temel Bileşenler Bazı

13

İnteraktif Görselleştirmeler

Scatter Plot Nasıl Yorumlanır?

Kümeler (Clusters)

Birbirine yakın noktalar benzer özelliklere sahip gözlemleri temsil eder. Net ayrılmış kümeler, veride farklı grupların varlığını gösterir.

Aykırı Değerler (Outliers)

Ana kümeden uzakta duran noktalar aykırı değerlerdir. Bunlar özel durumları, hataları veya ilginç gözlemleri temsil edebilir.

Yayılım (Spread)

PC1 ekseninde geniş yayılım = Verideki en önemli varyasyon bu yönde. PC2'de dar yayılım = İkincil varyasyon daha az.

Dağılım Şekli

Dairesel: Değişkenler bağımsız. Eliptik/Çizgisel: Güçlü korelasyon var. Çoklu küme: Alt gruplar mevcut.

Pratik Yorumlama İpuçları

Noktalar merkezde yoğunlaşmış: Veriler homojen, benzer özellikler gösteriyor.
2-3 ayrı küme görünüyor: Veride doğal gruplar var (örn: farklı türler, kategoriler).
Tek bir nokta çok uzakta: Bu bir aykırı değer - incelenmeli veya çıkarılmalı.
PC1'de çok yayılım, PC2'de az: İlk bileşen veriyi iyi özetliyor, boyut indirgeme etkili olabilir.
Tüm eksenlerde eşit yayılım: Tüm bileşenler önemli, boyut indirgeme zor olabilir.

X Ekseni: Y Ekseni:

X: Y: Z:

Biplot Okuma: Oklar değişkenlerin yönünü gösterir. Aynı yöne bakan oklar pozitif korelasyonu, zıt yönler negatif korelasyonu temsil eder. Ok uzunluğu değişkenin o bileşene katkısını gösterir.

CSV Dosyası Yükle

Veri Önizleme (İlk 5 Satır)

Analiz için Sütun Seçimi

Ham Veri İstatistikleri

Ortalama Merkezleme (Mean Centering)

Ortalama Merkezlenmiş Veri (İlk 5 Satır)

Standartlaştırma (Z-Score Normalization)

Standartlaştırılmış Veri (İlk 5 Satır)

Kovaryans Matrisi

Kovaryans Matrisi

Korelasyon Matrisi

Korelasyon Matrisi

Özdeğer ve Özvektör Hesaplaması

Özdeğerler (Eigenvalues)

Özvektörler (Eigenvectors)

Açıklanan Varyans & Boyut İndirgeme

PCA'nın Gücü: Boyut İndirgeme

Açıklanan Varyans Bar Grafiği (Dirsek Noktası)

Scree Plot

Kümülatif Varyans

Ana Bileşenler (Principal Components)

Ana Bileşen Skorları (İlk 5 Satır)

Yüklemeler (Loadings)

Loading Matrisi

Özellik Önem Analizi (Feature Importance)

Özellik Önem Sıralaması

Özellik Katkı Grafiği

PCA Sezgiselliği: Varyansı Maksimize Eden Yön

Varyans Maksimizasyonu: PCA Sezgiselliği

Bakış Açısını Değiştirmek: Önce ve Sonra

Önce (Orijinal Eksenler)

Sonra (Temel Bileşenler)

İnteraktif Görselleştirmeler

Scatter Plot Nasıl Yorumlanır?

Kümeler (Clusters)

Aykırı Değerler (Outliers)

Yayılım (Spread)

Dağılım Şekli

Pratik Yorumlama İpuçları

Sonuçları İndir