vcd::mosaic で日本語を使うためのwrapper書きました

カテゴリカルデータの可視化には、Michael Friendly先生たちのvcd(その名もずばり、Visualizing of Categorical Data:カテゴリカルデータの可視化)が有効なことはいろいろなところでこのパッケージが紹介されていることからもわかります。ただ、グラフィックがbase graphics ではなく、(latticeやggplot2でも使われている)gridであることもあり、日本語表示が簡単ではありませんでした。

しかし、gpar に日本語フォントを指定することでmosaicなどのvcd  function で日本語が使えるようになります。

当初は、一々mosaic()の中にパラメータで書いていたのですが、さすがに面倒になったので、wrapper をパッケージにしてみました。

Github からインストールできますので、使ってみてください。

if(!require(devtools)) install.packages("devtools")
devtools::install_github("419kfj/futools")
library(vcd)
library(RColorBrewer)
library(futools)
data(HairEyeColor_jp)
mosaic_jp0(HairEyeColor_jp)
# without cell color
mosaic_jp2(HairEyeColor_jp)

# set cell color by color matrix
cset <- t(matrix(rep(brewer.pal(4,"Blues"),2),ncol=2))
mosaic_jp2(HairEyeColor_jp,gp=gpar(fill=cset,col=0))

# Pearson residulas
mosaic_jp2(HairEyeColor_jp,shade=TRUE)

Reference:

カテゴリー: R, Tools | コメントする

その「数量化」大丈夫ですか?

2018-03-03 Tokyo.R(というRの研究会 )#68でのライトニング・トーク(LT)で、「マンガで統計学 因子分析編」オーム社刊、のデータを、一旦多重対応分析MCAで数量化しなおして、再度主成分分析PCAにかけるとどうなるか、という話をしてきました。

以下にスライドとスクリプトを公開してあります。

・発表スライド https://www.slideshare.net/kazuofujimoto/ss-89428948?from_m_app=ios

・資料としてつくったスクリプト(R) http://rpubs.com/kfj419/365002

カテゴリー: R, 対応分析 | コメントする

Specific MCA(SpeMCA)とClass Specific MCA(CSA)

Brigitte Le Roux 先生の”Multiple Correspondence Analysis”(多重対応分析), SAGE, 2010, にでてくる Specific** MCA(SpeMCA) と Class Specific MCA(CSA)(p61)が、(どうやら)FactoMineRのラッパーとして実装されているらしいことがわかった(^^)*。GDATools。これ(SpeMCA)、トニー・ベネットの『文化・階級・卓越化』でも使われているもの(Appendix 2参照)。(*追記:speMCA は、全部自前で処理してました。)
まだ、サンプルを動かしただけだけではっきりとはわかってないけど、「Active variable」の中に「Passive categories」を指定する、らしい。つまり、「変数(variable)を supplementary にして軸形成に寄与させない」のではなく、変数内のカテゴリ(othersとかNAとか)を「Passive カテゴリ」として<はずす>ような感じか。これ、調査実習のデータでもやったけど、前処理をdplyrでちょこちょこやってデータセットを書き換えていたので、こういうアプローチあるのだな、と納得。
ちなみに、GDATools には、カテゴリー一覧を表示させるfunctionが用意されているので、それをつかって「Passive」しているするカテゴリを指定して、GDATools::SpeMCA に 投入すればいいらしい。ClassSpecific MCA(MCA)は、個体のサブクラウドに対するMCAのようなので、SpeMCAの個体版と理解すればいいのだろうか。
(** とするとMCAの対象を「明確にする」「特定のものにする」というspecific なので「特殊なMCA」というよりは「特定MCA」というニュアンスではないだろうか。)
サンプルのMusicデータをregularMCA でやると、こんなふうにFrenchPOP.NAやClassic.NAが軸を引っ張ってます。
mca <- speMCA(Music[,1:5])
これを、.NA のカテゴリをexclで指定してSpeMCA するとこうなります(^^)/ 
mca <- speMCA(Music[,1:5],excl=c(3,6,9,12,15))
ドキュメントは、
カテゴリー: R, 対応分析 | コメントする

『対応分析入門』正誤表に追記しました

2018/02/09 二件の誤記訂正行いました。https://wp.me/P70mJn-15

カテゴリー: R, 対応分析 | コメントする

CA,MCA,PCA のnice companion であるfactoextra のcheatssheet 公開されてます

作者のgithub の以下にところから取得可能です。

CA(対応分析)についてのツールのcheatssheet。

https://github.com/kassambara/factoextra/blob/master/docs/CA.pdf

PCA(主成分分析)についてのツールのcheatssheet。

https://github.com/kassambara/factoextra/blob/master/docs/PCA.pdf

カテゴリー: R, Tools, 対応分析 | コメントする

「両親の学歴と書架の本の数」をMCAでみる

SSJDAでリモート集計可能になっているベネッセのモノグラフシリーズのデータをちょっと技を使ってクロス表の形で、ダウンロードし、それを個票に「復元」。そしてMCAを行う、というもの。MCAの分析については書いてなくて、データ取得、整形の方法のメモだと思ってみてください。

http://rstudio-pubs-static.s3.amazonaws.com/288911_70e72fc8bf00485fb7532366eb0bc6dd.html

カテゴリー: R, 対応分析 | コメントする

R.A.Fisher の1940年論文

いぜん、『対応分析入門』の解説の中に、アラン・アグレスティの『カテゴリカルデータ分析』のことについて書きました

日本語訳がでているのは、その第一版で、すでに絶版となってしまってます。その第10章は「20世紀におけるカテゴリカルデータ解析お歩み」ですが、そこで、対応分析が登場します。

その前振りは、こんな感じです。p366下から二行目から。

「1940年、Fisherは相関を最大にするための分割表における行と列のスコア付けの方法を示し、分割表に対する標準的な手法を発展させた。」

「彼の手法は、後にフランスで特に発展した一致の解析(ママ)(correspondence analysis)の手法に関連している。」

と。ちなみに、第2版でも、ほぼ同じような内容かと。

「In 1940, Fisher developed canonical correlation methods for contingency tables. He showed how to assign scores to rows and columns of a contingency table to maximize the correlation. His work relates to the later development, particularly in France, of correspondence analysis methods (e.g., Benzecri 1973)」p619

で、このFisher1940論文、Willy OnlineでPDFで読めました。

http://onlinelibrary.wiley.com/doi/10.1111/j.1469-1809.1940.tb02264.x/pdf

これを読んでいてギョギョ!とおどろいたのは、Rをつかっているとよくおめにかかる髪の色と目の色のクロス表がでてくるですはないですか(私も今校正中の某紀要原稿でつかっております)。あのHairEyeColor  のような視点は、髪の色、目の色がさまざまな文化だと当たり前なのですね。

なんて発見もありました。

なので、次は、林知己夫が数量化の説明でどんなことを書いているのかを調べてみようと思います。

カテゴリー: R, 対応分析 | コメントする

factoextra で解説されているMCAを日本語で使うためのデータ日本語化

 

「データpoisonの日本語化」

http://rpubs.com/kfj419/276610

これをつかって、FactoMineRのMCAを実行するさわりまで載せてあります。原文は、

http://www.sthda.com/english/wiki/factoextra-r-package-easy-multivariate-data-analyses-and-elegant-visualization

にある、http://www.sthda.com/english/articles/31-principal-component-methods-in-r-practical-guide/114-mca-multiple-correspondence-analysis-in-r-essentials/

です。ここで使われているデータセット、poisonを日本語化しています。

なお、以下のものは、後半解説の日本語化をしてません。グラフをご覧いただければ様子はわかると思います。ver0.1 ぐらいのつもりで公開しておきます。ご意見いただければ幸いです。

クリックしてMCA-essentials-J20170525.pdfにアクセス

カテゴリー: R, 対応分析 | コメントする

「対応分析のグラフを適切に解釈する条件 : Standard Coordinate, Principal Coordinate を理解する」

津田塾大学紀要49号に投稿いたしました表記論文をPDFでお読みいただくことができます。補足というか「言い訳」したいことが沢山あるのですが、次のものが控えているので、ここに「公開」いたします。

津田塾大学 学術リポジトリ 紀要49号

カテゴリー: 対応分析 | コメントする

vcd/vcdExtra で日本語を使う その1、その2

これが、その1 「二つのmosaic plot と日本語表示」Tokyo.R#65 でLTさせていただきました。

で、こちらが、12/16に開催されたTokyo.R#66 でLTさせていただいた「その2」

カテゴリー: R, 対応分析 | コメントする