プロフィール

BlueTrain

茨城県

プロフィール詳細

カレンダー

<< 2024/4 >>

1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30

検索

:

アーカイブ

アクセスカウンター

  • 今日のアクセス:91
  • 昨日のアクセス:130
  • 総アクセス数:1228702

QRコード

釣りのためのデータサイエンスその2「シンプソンのパラドックス」について」

  • ジャンル:日記/一般
前回の釣りのためのデータサイエンスでは「相関係数」についてかなりざっくり説明しました。

データを取って傾向のある方向に線を引く、その傾きが相関係数でした。

次の図でさらに説明します。


wikipedeliaから引用



この図ではA,B,C,D,Eのデータを書いたもの(らしいです)





このデータでは、一個ずつのデータは右上がりになっていますが、全体としては右下がりです。

これをデータサイエンスっぽくいうと、層別のデータセットでは正の相関があるが、全体では負の相関がある、といいます。(いうのか?)、が、釣りで使うのには憶えなくていいです。

これはシンプソンのパラドックスと呼ばれており、世の中では結構出てきます。

パラドックスとは矛盾の意味ですが、この矛盾は分析では頻出です。

釣りで使うのに、ABC・・・を釣り人に対応させます。

釣り人A、釣り人B、C,D、E、Fの人が満月の日はシーバスが釣れやすい、と異口同音に感想を得たとします。

その場合、もう完全にシーバスは満月に釣る魚。

しかし、A~Fの人の散布図を書いてみたら満月は実は釣れづらいという事が起きている。

今回の話はここで大体終わりです。


例えば、自分たちが初めての釣りのジャンルに飛び込もうという時、他の人の話を聞くことから始める。

サーフヒラメでは離岸流が釣れると、殆どの人が言っているから離岸流は鉄板なのか、というと釣り人が離岸流が釣れると思っているから、という釣り人自体による影響がある可能性がある。

留意すべき点は、その人の釣り方が全体から見ると間違っていたとしてもその人から見れば間違いではないという点。

その人が得たデータというのは尊重しなければならない(悪いわけじゃないんだから)

しかしながら、どうせ客観的に見てモノ言うと釣り人同士はケンカになると思うのでその時はわからず屋はやっちゃっていいかもしれない。



というわけで、層別データは結果が逆になることがあるので気を付けてください、という内容でした。

追記なのですが、コロナのワクチンなどで層別データにして20代や70代でもワクチンは効果が無かった、というようなSNSの投稿があったりしますが、それはシンプソンのパラドックスを使ったデマだったりするので気を付けてください。

一般の人に分かりづらい感覚で不安をあおったりするような連中は結構います。

コメントを見る