Principal Component Analysis - Adım Adım Görselleştirme
Herhangi bir CSV dosyasını yükleyin ve PCA'nın matematiğini keşfedin
cagatayuresin/interactive-pcaCSV dosyanızı sürükleyip bırakın veya tıklayın
Sadece sayısal sütunlar PCA analizine dahil edilebilir.
PCA analizine başlamadan önce, ham verilerimizin temel istatistiklerini inceleyelim.
Her değişken için ortalamayı hesaplıyoruz ve her değerden bu ortalamayı çıkarıyoruz. Bu işlem verilerin merkezini orijine taşır.
Değişkenler farklı ölçeklerde olabilir. Standartlaştırma ile tüm değişkenleri aynı ölçeğe getiriyoruz (ortalama=0, standart sapma=1).
Kovaryans matrisi, değişkenler arasındaki ilişkileri gösterir. Pozitif değerler pozitif korelasyonu, negatif değerler negatif korelasyonu gösterir.
Korelasyon matrisi, standartlaştırılmış kovaryans matrisinin bir formudur. Değerler -1 ile 1 arasında değişir.
Kovaryans matrisinin özdeğerleri (eigenvalues) ve özvektörleri (eigenvectors) hesaplanır. Özdeğerler her ana bileşenin açıkladığı varyansı gösterir.
Her ana bileşenin toplam varyansın yüzde kaçını açıkladığını hesaplıyoruz. Kümülatif varyans, kaç bileşenin yeterli olduğunu belirlememize yardımcı olur.
PCA'nın bir faydası, temel bileşenlerle ilişkili varyansları inceleyebilmemizdir.
Dirsek Noktası: Grafikte keskin düşüşün başladığı nokta, önemli bileşenleri seçmek için bir ipucudur.
Orijinal veriyi özvektör matrisine yansıtarak ana bileşen skorlarını elde ediyoruz. Bu yeni koordinat sisteminde veriler maksimum varyansı gösterecek şekilde döndürülmüştür.
Yüklemeler, orijinal değişkenlerin her ana bileşene olan katkısını gösterir. Yüksek mutlak değerli yüklemeler, o değişkenin ilgili bileşenle güçlü ilişkisini gösterir.
Hangi Özellik Ne Kadar Önemli?
Her özelliğin PCA'daki genel katkısını hesaplıyoruz. Bu analiz, hangi değişkenlerin
verideki varyansı en çok açıkladığını gösterir. Önemlilik skoru, her özelliğin tüm
ana bileşenlere olan katkısının ağırlıklı ortalamasıdır.
Sezgisel Cevap: "En Önemli" Bilgi Nerede Saklıdır?
İyi ölçümler yaptığımızı varsayarsak, ölçüm uzayımızdaki en büyük varyansa sahip yönlerin,
ilgilendiğimiz dinamikleri içerdiğini varsayarız. Verideki en geniş yayılım (en yüksek varyans),
verinin ana hareket yönünü gösterir. Bu yönden sapmalar ise gürültüdür.
İlk iki değişken üzerinde en yüksek varyans yönü (PC1) gösterilmektedir.
Varyansı Maksimize Eden Yönü Bulmak
Verimizdeki en yüksek varyansın yönü, genellikle ölçtüğümüz orijinal eksenler
(örneğin x ve y eksenleri) değildir. Amacımız, bu naif temeli, verinin en uzun
eksenine paralel olacak şekilde döndürmektir. Bu yeni yön (p*), sistemin ana dinamiğini ortaya çıkarır.
Orijinal Eksenler (Naïve Baz)
Temel Bileşenler Bazı
Birbirine yakın noktalar benzer özelliklere sahip gözlemleri temsil eder. Net ayrılmış kümeler, veride farklı grupların varlığını gösterir.
Ana kümeden uzakta duran noktalar aykırı değerlerdir. Bunlar özel durumları, hataları veya ilginç gözlemleri temsil edebilir.
PC1 ekseninde geniş yayılım = Verideki en önemli varyasyon bu yönde. PC2'de dar yayılım = İkincil varyasyon daha az.
Dairesel: Değişkenler bağımsız. Eliptik/Çizgisel: Güçlü korelasyon var. Çoklu küme: Alt gruplar mevcut.
Biplot Okuma: Oklar değişkenlerin yönünü gösterir. Aynı yöne bakan oklar pozitif korelasyonu, zıt yönler negatif korelasyonu temsil eder. Ok uzunluğu değişkenin o bileşene katkısını gösterir.