コード・サンプル
x <- rnorm(100)
y <- rnorm(100)
plot(x,y)
x <- rnorm(100)
y <- rnorm(100)
plot(x,y)
カテゴリカルデータの可視化には、Michael Friendly先生たちのvcd(その名もずばり、Visualizing of Categorical Data:カテゴリカルデータの可視化)が有効なことはいろいろなところでこのパッケージが紹介されていることからもわかります。ただ、グラフィックがbase graphics ではなく、(latticeやggplot2でも使われている)gridであることもあり、日本語表示が簡単ではありませんでした。
しかし、gpar に日本語フォントを指定することでmosaicなどのvcd function で日本語が使えるようになります。
当初は、一々mosaic()の中にパラメータで書いていたのですが、さすがに面倒になったので、wrapper をパッケージにしてみました。
Github からインストールできますので、使ってみてください。
if(!require(devtools)) install.packages("devtools") devtools::install_github("419kfj/futools")
library(vcd) library(RColorBrewer) library(futools)
data(HairEyeColor_jp) mosaic_jp0(HairEyeColor_jp)
# without cell color mosaic_jp2(HairEyeColor_jp) # set cell color by color matrix cset <- t(matrix(rep(brewer.pal(4,"Blues"),2),ncol=2)) mosaic_jp2(HairEyeColor_jp,gp=gpar(fill=cset,col=0)) # Pearson residulas mosaic_jp2(HairEyeColor_jp,shade=TRUE)
Reference:
2018-03-03 Tokyo.
以下にスライドとスクリプトを公開してあります。
・発表スライド https://www.slideshare.net/kazuofujimoto/ss-89428948?from_m_app=ios
・資料としてつくったスクリプト(R) http://rpubs.com/kfj419/365002
作者のgithub の以下にところから取得可能です。
CA(対応分析)についてのツールのcheatssheet。
https://github.com/kassambara/factoextra/blob/master/docs/CA.pdf
PCA(主成分分析)についてのツールのcheatssheet。
https://github.com/kassambara/factoextra/blob/master/docs/PCA.pdf
SSJDAでリモート集計可能になっているベネッセのモノグラフシリーズのデータをちょっと技を使ってクロス表の形で、ダウンロードし、それを個票に「復元」。そしてMCAを行う、というもの。MCAの分析については書いてなくて、データ取得、整形の方法のメモだと思ってみてください。
http://rstudio-pubs-static.s3.amazonaws.com/288911_70e72fc8bf00485fb7532366eb0bc6dd.html
いぜん、『対応分析入門』の解説の中に、アラン・アグレスティの『カテゴリカルデータ分析』のことについて書きました。
日本語訳がでているのは、その第一版で、すでに絶版となってしまってます。その第10章は「20世紀におけるカテゴリカルデータ解析お歩み」ですが、そこで、対応分析が登場します。
その前振りは、こんな感じです。p366下から二行目から。
「1940年、Fisherは相関を最大にするための分割表における行と列のスコア付けの方法を示し、分割表に対する標準的な手法を発展させた。」
「彼の手法は、後にフランスで特に発展した一致の解析(ママ)(correspondence analysis)の手法に関連している。」
と。ちなみに、第2版でも、ほぼ同じような内容かと。
「In 1940, Fisher developed canonical correlation methods for contingency tables. He showed how to assign scores to rows and columns of a contingency table to maximize the correlation. His work relates to the later development, particularly in France, of correspondence analysis methods (e.g., Benzecri 1973)」p619
で、このFisher1940論文、Willy OnlineでPDFで読めました。
http://onlinelibrary.wiley.com/doi/10.1111/j.1469-1809.1940.tb02264.x/pdf
これを読んでいてギョギョ!とおどろいたのは、Rをつかっているとよくおめにかかる髪の色と目の色のクロス表がでてくるですはないですか(私も今校正中の某紀要原稿でつかっております)。あのHairEyeColor のような視点は、髪の色、目の色がさまざまな文化だと当たり前なのですね。
なんて発見もありました。
なので、次は、林知己夫が数量化の説明でどんなことを書いているのかを調べてみようと思います。
「データpoisonの日本語化」
http://rpubs.com/kfj419/276610
これをつかって、FactoMineRのMCAを実行するさわりまで載せてあります。原文は、
です。ここで使われているデータセット、poisonを日本語化しています。
なお、以下のものは、後半解説の日本語化をしてません。グラフをご覧いただければ様子はわかると思います。ver0.1 ぐらいのつもりで公開しておきます。ご意見いただければ幸いです。
津田塾大学紀要49号に投稿いたしました表記論文をPDFでお読みいただくことができます。補足というか「言い訳」したいことが沢山あるのですが、次のものが控えているので、ここに「公開」いたします。
コメントを投稿するにはログインしてください。