PCA（主成分分析）in R

on 1月 19, 2021

変数が３つ以上あるとグラフ化できないので、傾向が見えずらくなります。そのため、PCAにて変数の数を減らし傾向を把握します。変数を減らすことの効用としては、わかりやすいのはBMIの計算があります。体重と身長の２変数を１変数にして、特徴をとらえやすくしています。

今回は、Rに付属されているデータのIRISを使います。花の150個のデータがあります。花の種類名も入っていますが、知らないことにします。花弁に関する4つの変数があります。これらのデータにPCAで傾向を把握することはできるでしょうか。

種名をとりのぞいたデータを作成します。

library(tidyverse)
iris_wo_label <- iris %>% select(-Species)

さっそく、PCAを実施します。prcomp(データ, scale = TRUE/FALSE)で実施できます。データの単位が異なる場合にはTRUE（相関行列）、同じ場合にはFALSE（分散共分散行列）を選択してください。今回は、すべてcmで計測されているのでFALSEです。（後記：TRUEのほうがよいようです。すべてcmで計測されているものの、数字が全て大きい変数（Sepal.Length：平均5.8）と、数字が全て小さい変数で（Petal.Width平均1.2）、影響力が変わってしまうので、やはり単位が同じといえど、スケーリングを実施すべきと勉強しました。）

pca <- prcomp(iris_wo_label, scale = F)
summary(pca)

summaryで、実行結果が見れます。cumulative proportionというのはその軸が変数の情報をどれだけ保持しているかという割合です。PC１というのは、第１軸です。PC2軸は第２軸です。第１軸が一番情報量の多い軸です。

PC１→PC２→PC3→PC4と、情報を保持している割合が蓄積されていきます。もともと変数が４つなので、４軸を使えば情報が100％保持されているというのはわかりやすいですね。

軸のベクトルを知るには、pcr$rotationとすれば見ることができます。

pca$rotation

データごとに、第１主成分・第２主成分の数値を知るためには、pca$xとします。

pca$x

プロットするのは、biplot( )とするだけでできます。

biplot(pca)

Petal.Lengthが長いものは右のほうへ、Sepal.WIdthが長いものは左のほうへ位置されているようです。なんとなく、２グループぐらいありそうな感じがします。

ラベルが数字なのがわかりずらいのでggplotで書き直します。

tibble(pc1 = pca$x[,1], pc2 = pca$x[,2]) %>%
  ggplot()+
  geom_point(aes(x=pc1,y=pc2,color=pc1))+
  scale_color_gradient(low="orange",high="purple")+
  theme_minimal()+
  theme(legend.position = "none")

様々な方法でグループ化して、PCAのグループ把握能力を確かめてみます。

ところで、どこの軸までが重要かを測る指標があります。eigen valueというものです。これが１以下の軸は重要ではありません。変数１つの情報量より下だという意味のようです。

eigen_value <- pca$sdev^2
plot(eigen_value)

第２軸から重要じゃないみたいです。

K-means

何グループあるか分からないので、centers = ２グループ　として実行してみます。

kmeans_obj <- kmeans(iris_wo_label,centers=2,nstart = 3) 
pred_kmeans <- kmeans_obj$cluster

tibble(pc1 = pca$x[,1], pc2 = pca$x[,2],gr = pred_kmeans) %>%
  ggplot()+
  geom_point(aes(x=pc1,y=pc2,color=as.character(gr)))+
  theme_minimal()+
  labs(color = "Predicted Group")

Hierarchical clustering

まずデータをdistance matrixにしないといけないです。

iris_wo_label_dist <- dist(iris_wo_label)
hierarchical <- hclust(iris_wo_label_dist,method = "complete")
plot(hierarchical)

プロットを見ると、４グループあたりがちょうどよさそうな感じもしますが、２グループにします。cutreeで、枝が２つのところで木をきります。

pred_hierarchical <- cutree(hierarchical, k=2)

tibble(pc1 = pca$x[,1], pc2 = pca$x[,2], gr = pred_hierarchical) %>%
  ggplot()+
  geom_point(aes(x=pc1,y=pc2,color=as.character(gr)))+
  theme_minimal()+
  labs(color = "Predicted Group")

k-meansとhierarchical clusteringの２つのグラフを比べてみます。

library(patchwork)
g1<-tibble(pc1 = pca$x[,1], pc2 = pca$x[,2], gr = pred_kmeans)%>%
  ggplot()+
  geom_point(aes(x=pc1,y=pc2,color=as.character(gr)))+
  theme_minimal()+
  scale_color_manual(values = c("#98CA6F", "#E36D94"))+
  theme(legend.position = "none")+ 
  ggtitle("K means")
g2<-tibble(pc1 = pca$x[,1], pc2 = pca$x[,2], gr = pred_hierarchical) %>%
  ggplot()+
  geom_point(aes(x=pc1,y=pc2,color=as.character(gr)))+
  scale_color_manual(values = c("#E36D94","#98CA6F"))+
  theme_minimal()+
  theme(legend.position = "none")+ ggtitle("hierarchical clustering")
g1/g2

PCAの特徴能力把握能力は、なかなか高いものがありました。

ただ、色々なデータでＰＣＡをやってみると変数が多いとわけがわからなかったり、cumulative proportionがＰＣ１ＰＣ２で全然低かったりしてうまくいかないことも多々あります。

Categories:

Data Visualization R

K-means

Hierarchical clustering

category