カテゴリカル・データを分析する「対応分析」(「SAKUらいぶ」88号)

「対応分析」という名前を聞いたことがありますか。統計処理の一つですが、分析対象となるデータが数値ではなく「性別」「組織」のようなカテゴリーであるところに特徴があります。
数値であればエレガントな数学理論を適用する方法が沢山開発されていますが、カテゴリカルデータ、「性別」や「意見」、多くのアンケートにある「好き/嫌い」というような非数値データは、なんらかの方法で数値化しないとそうした計算処理にはかけられないのです。
よく使われているのが、リッカート尺度(整数尺度とも呼ばれる)という、よく当てはまる、当てはまる、どちらでもない、当てはまらない、まったく当てはまらない、というような回答に、5、4、3、2、1、という数値を割り当てるやり方です。このように数値をわりあてて平均や分散を計算してませんか?
このやり方、なにか変ですよね。なんで等間隔でリニアな尺度を前提にできるのだろう、って疑問に思ったこともあると思います。
「対応分析」は、分析対象としているデータの分散が一番大きなところから新たな座標軸をもってくるという意味では「主成分分析」に似てますが、その処理の前にデータを行と列の度数割合(プロファイル)として考えて、それらの類似度をカイ二乗距離で評価します。そして全体の系を最もよく代表する軸から順番に生成される空間にプロットしていきます。この方法とてカテゴリに数値を割り当てているわけですが、データのもつ情報(プロファイル間距離)を最もよく表現できる方法による数値化です。つまり、大切な分析対象を可能な限り歪めずに分析を進められるのです。
この方法を使うと、先にあげた5、4、3、2、1という値を付値されたラベルは、(5、4 、3)2、1というように3つの数値で代表できたりします。
「対応分析」は、データ構造を壊さずに分析する面白い手法です。
参考書:Sten-Erik Clausen (翻訳:藤本一男)『対応分析入門』オーム社、2015