へちやぼらけのブログ

総PV数5万を達成し着々と知名度を伸ばしつつ、やっぱりまだまだ駆け出しのブロガーのブログ

東京で働くSE(2年目)です。
経済学、統計学や会計など、数学ちっくな学問に興味あり。

ぶんぶん商品比較(ヒカクキン)、目から鱗の役立つ本の紹介などなど書いてます。
もっともっとブログを盛り上げていきたい。ゲーム音楽が大好きです!

統計学は『最恐』の学問?? ~もう統計学に騙されないぞ~

お疲れ様です。へちやぼらけです。いつもは、商品比較に関する記事を書いていますが、今回は、自称統計学マスター(修士卒)の私から統計学のお話をさせて下さい。微力ながら、現状の統計学の扱いに警鐘を鳴らしてみました。

 

ビッグデータ(Bigdata)という言葉の流行りが皮切りでしょうか?昨今、統計学の重要性が認知され始めました。プレゼンや会議の資料でも、統計学を使ったであろう資料が散見されるようになった気がします。平均値、分散、相関係数・・・そして、いかにももっともらしい数値。

しかし、振り返って考えて見てたことがあるでしょうか?

「その数値、本当に正しいの?」

 

~その数値、本当に正しいの?~

書店の参考書から、見よう見まねでエクセル, 統計解析ソフトをいじくり回す。かっこいい用語と数値を使うことだけで、解析する側も聞く側もなんとなく満足してないでしょうか? ただ、ちょっと待って欲しい・・・・。 

統計学には、禁止事項, 落とし穴が目白押しです。
データ解析に精通した方には常識かもしれないですね。
上記を把握せず、数値を鵜呑みにするのは非常に危険です。

誤ったデータ解析=狂った羅針盤  と言えるでしょう。

狂った羅針盤をもとに行動しようとしているならば、非常に危険。
行きつく先は、あなたが目指したゴールではないでしょう。

注意喚起を込め、あえて
統計学は「最恐」の学問である。』
と言ってみます。プロが扱う統計学は「最強」と補足として記載いたします。

 

統計学は「最恐」の学問である。~

数字であれこれ説明されると妙に説得力がありますよね。標準偏差相関係数などの聞きなれない言葉。少数点単位で細かく数値化され、「すげー!」「最強なんじゃないか?」誰もがこう思うかもしれないです。実は私もそうでした。

しかし、これだけは是非、頭の片隅に入れていただきたい。
素人が扱う統計学は「最恐」である。
プロが扱う統計学は「最強」である。

先も述べましたが、統計学には禁止事項, 落とし穴が目白押しです。ただ、誰がやってもそれなりに説得力のある数値として形になるのが本当に恐い。狂った羅針盤のできあがりです。

 

~脱「嘘っぱちデータ解析」のススメ~

落とし穴が・・・。禁止事項が・・・。と述べてきました。
私はこういった、落とし穴, 禁止事項にどっぷり漬かってしまった統計解析を「嘘っぱちデータ解析」と呼んでいます。それっぽく数値化されているが、実態はデタラメ, 嘘っぱちな統計解析のことです。 

さぁ、嘘っぱちデータ解析とは具体的に何か?この記事の本題に入りたいのですが、ご安心下さい。名前のニュアンス通り、難しい話ではありません。誰でも容易に理解でき、今日からでも使えます。落とし穴が目白押しと先に述べましたが、実は落とし穴事態は簡単に回避可能!知ってるか知らないかのちょっとした差なんです!!

是非あなたも、「嘘っぱちのデータ解析」になっていないか一読してみて下さい。脱嘘っぱちデータ解析を全力支援します。

 

今日から使える!脱「嘘っぱちデータ解析」
ー狂った羅針盤はもう要らないー

誤解を招くグラフを使用←今回説明
・データに◯◯がある←次回以降説明
・相関と◯◯の誤解 ←次回以降説明
・とりあえず◯◯値 ←次回以降説明
・とりあえず◯◯分析←次回以降説明

 

~誤解を招くグラフを使用~

まずは、「誤解を招くグラフを使用」について説明いたします。四の五の言わずに  具体例から。※この具体例は、架空のものです。現実と混同なきようにお願い致します。

 

f:id:hetiyaborake:20171027004748p:plain

こちらは、A君, B君, C君から身長のデータを採ってきてグラフにまとめたものです。
ちなみに、A君の身長=160.3cm, B君の身長=180.0cm, C君の身長=175.8cmです。

両方のグラフは、上記の同じ3つのデータをグラフ化したものですが、同じデータでも全く印象が異なりませんか? パット見感じる両グラフの印象は以下になるはずです。

・左側のグラフ:3人の身長には差がない
・右側のグラフ:3人の身長には差がある

そりゃ、そうですよね。青棒の高さが両グラフで明らかに変わっているのですから。

 

では、もう一歩踏み込みます。
何故同じデータをグラフ化しているのにも拘わらず、印象の異なるグラフが出来上がってしまったのでしょうか?

感のいい方は、お気づきかもしれません。
はい、そうです。縦軸の目盛り幅(スケール)が違うからです。
両グラフの縦軸を見比べてみると、

・左側のグラフ:目盛りが100cmごと
・右側のグラフ:目盛りが2cmごと

となっています。
「左側のグラフを縦方向に"びよーん"と引き延ばしたのが、右のグラフ」
と言い換えられます。

 

上記が同じデータからでも、印象の異なるグラフが作成されたカラクリです。
実は、今述べた内容は印象操作などによく使われます。今の例で言うと 

・身長に差が無いと言いたい人は、左のグラフを使用し、

・身長に差があると言いたい人は、右のグラフを使用する。

といった具合です。

見た目の印象だけに囚われていては、相手の思惑通りに印象操作され、偏った考えを植え付けられます。騙されないようにしなくては・・・。自分もよく肝に銘じています。
ちなみに、”グラフ 嘘” などでググってみると、今回紹介した「嘘っぱち統計学」がふんだんに悪用されていることに、頭を抱えると思います。よかったらググってみてください。

 

~脱嘘っぱちデータ解析~

f:id:hetiyaborake:20171027012224p:plain

 

最後に、どうすれば騙されなくなるのか・・・?
縦軸の目盛り幅に注意する!

 

これが、一番の解決策かな。と思います。このスタンスでグラフを見れれば、見た目の大きさに惑わされることなく冷静にデータを確認できそうですね。また、必要であればグラフ化されたデータを眺めるだけでなく、グラフの素になった数値を直接確認してみるのも良さそうです。

 

今回は、ここまでです。
どうでしょうか?「嘘っぱちデータ解析」
そんなに難しい話ではなかったと思います。

 

次回以降、説明できなかった「嘘っぱちデータ解析」の残りを随時取り扱います。今回同様、簡単に理解でき読んですぐに実践できるものばかりです。よろしければ、次回の記事もご覧ください。

 

以上、ここまで読んでいただきましてありがとうございました。