こんにちは!
1級FP技能士のアシまるくんです!
第1章『全く新しい相関係数の登場!?』
最近、以下のブログが話題になっています。
いままでにない全く新しい相関係数が登場したそうです。
その名もChatterjeeの相関係数(*1)。従来の相関係数の問題点を解消した画期的な相関係数だそうです。上記のブログ記事を皮切りに、続々といろんな方が投稿をされています。パッと見の印象はPythonなどを用いた実装に関する記事が多いですね。
私はどちらかというと相関係数の性質そのものに興味があるので、いろいろと考察してみました。ガッツリとした数学の話にご興味がある方は、はてなブログ(*2)の方に投稿した以下の記事をぜひご一読ください!
(*1)"チャタジー"さんと読むそうです、インド系の数学者の方みたいですね。やはりインドはすごい!完全なる余談ですが、お笑いコンビ"ジャルジャル"のコントに、フィリピンの数学者チャタライ先生というのがありましたね。
(*2)はてなブログはTeX形式で記事を書くことができるので、数式をとてもきれいに描くことができます。TeXって何?と思った方は、ぜひ数式のレイアウトのキレイさを確認する目的で、リンク先のブログをぜひ軽くご確認してみてください!
第2章『ざっくり理解する相関係数』
まずは、通常の相関係数のお話をしましょう。
上記のグラフをご覧ください。青の点は、体重と身長のデータです。縦軸が体重(kg)で、横軸が身長(cm)です。データ数は30個ありますが、私がそれっぽく作っただけのデータです。相関係数の説明のためだけに用意したので、ご容赦ください。
オレンジの直線は、回帰直線です。今回のケースにおける回帰直線とは、もし身長と体重に1次関数(直線的な)の関係があるなら、こういう直線になるよね?という直線です。
今回のケースだと、相関係数は0.94になります。上限が1で、大きいほど(正の傾きを持つ)1次関数の関係で記述できることを踏まえると、確かに、青の点はまあだいたいオレンジの直線の近くにあるように見えます。
ここで注意すべき事項は、"相関がある≠因果関係がある"ということです。
分かりやすい例だと、エアコンの消費電力とアイスの売り上げがあります。エアコンの消費電力とアイスの売り上げを比較すると、何となく関係がありそうに見えるのですが、それは"暑い!"という共通の原因が存在しているからです。(今ではもう見かけない)アイス売りのオヤジが、アイスの売り上げを増やそうと、冷房の無駄遣いをしたところで、当然、売り上げには何も影響はしないよ、という話です。
第3章『Chatterjeeの相関係数をスーパーざっくり味わう』
前章の通り、最も基本的な相関係数は、直線的な関係のみを扱うことができます。
しかし、当然のことながら世の中にある2変数の関係性は直線的なものに限りません。周期的な関係性だってありますし、周期的でなくとも上がったり下がったりする関係性(*3)もあります。
上記のグラフをご覧ください。見るからに、青点の方は横軸と縦軸に何かしらの関係がありそうで、グレーの点は横軸と縦軸に全く関係はなさそうです。Chatterjeeの相関係数は、全く関係ないときは、隣同士の点の距離が長くなる(*4)ということに着目した指標です。そんなところに着目するとはとても面白いですね。
と、極めてざっくり紹介してきました。だいぶ厳密性を削って、面白さの概要を掴んでいただくことに注力したので、数学的な粗さはご容赦ください。
こんな面白い瞬間に立ち会えて、私はとても幸せを感じます。
(*3)上がったり下がったりの曲線というと、エビングハウスの忘却曲線やダニングクルーガーの法則を思い出しましたが、皆様はいかがでしょうか?
(*4)余談ですが、点同士の位置関係に着目する相関係数として、ケンドールのτ(タウ)と呼ばれるものがありますので、もしご興味あれば調べてみてください。こちらは線の長さではなく、線の向きに着目しています。



