プロフィール

BlueTrain

茨城県

プロフィール詳細

カレンダー

<< 2024/4 >>

1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30

検索

:

アーカイブ

アクセスカウンター

  • 今日のアクセス:285
  • 昨日のアクセス:523
  • 総アクセス数:1232309

QRコード

釣りに使うデータサイエンス。

  • ジャンル:日記/一般

釣りをしていると、「ああ、釣りを究めたいな」と思う人は沢山いると思う。

論文を読むのはその近道。

今回はその論文に出てくるデータの読み方について少しお話をしたいと思う。

論文を読むと、t検定やら相関係数、回帰式、P値といった言葉が出てくる。

かなりざっくり説明する。

https://www.jstage.jst.go.jp/article/suisan/72/1/72_1_50/_pdf/-char/ja


まずこの論文を見てみる。

そうすると、蕁麻疹が出てくる。

自分はこういう論文は釣りの為に何本も読んでいるので耐性がついてきた。

釣りを究めようと思ったら蕁麻疹くらいで音を上げてはいけない。

自分は釣りの為には統計数学も勉強した。

まず、一番先に話をするのは回帰式。

これは、お互いどのくらい関係していますか?という式。


例えば、水温と釣果の関係を調べて水温が上がれば上がるほど釣果も上がるとする。

水温をTとすると釣果=数字×Tとなるはず。

この式が「回帰式」で数字が「相関係数」だ。

これは-1~1の間の数字を取る。

これは難しい説明だとデータをベクトルとして規格化したときの内積cosΘとなる。

まぁそれは憶えなくていい。

水温が上がった時にどのくらい釣れるのかを-1~1の間の数字を水温に掛けて表すのが回帰式だと憶えておけばいい。

相関係数の求め方は色んなデータがあるうちの一番それらしいところに直線を引いて求める。

これもユークリッド距離を最小にするとかいう説明もあるんだろうけど、憶えなくていい。

データに線を引いた時の傾きが相関係数だ。

相関係数は0.8とかになると強相関と言っていい。

この論文では0.85という相関係数が出てくるのでかなりの強相関を表している。


データがあるうちで一番それらしいところに直線を引くと、2個しかないデータで結論付けられてしまったりする。

それにたまたま出てきた、例えばサイコロを3回振って1しか出なかったからと言って、「サイコロは1しか出ない」と結論付けたらヤバい。(そういうヤバい話は釣りの世界ではよくある)

そこで、たまたまじゃねーの?それ?っていう指標が統計数学にはある。

それがP値。

これは通常0.05や0.1があってこれは確率を表す。

P<0.05ってなったら95%の確率でたまたまじゃないですよ、っていう意味になる。

このP<0.1やらP<0.05を見たら、論文を書いている人が「俺は信用性の低い事を言ってるわけじゃないからな」という主張だと思っていい。

t検定やらt-testというのはP値を求める方法だ。

これは使うには本当は条件があるんだけど、なんかそこは気にしてはいけない事になっているみたいだ。

論文を書いた人の回帰式がたまたまじゃないですよっていう主張の時はこのt検定を使ってP値を求める。

また言い忘れていたけど、決定係数っていうのもあってRの二乗で書いてある。

これは定義式がいっぱいあるらしいんだけど、相関係数の当てはまりの良さを表す。

-1~1の間の相関係数を2乗すると1以下の数字なので元の数字より小さくなる。

まぁ論文を読むうえではあまり気にしなくていい。

統計数学の式は「俺は間違ったこと言ってねーぞ」って言ってるだけで、論文から得られる情報の本質とはあまり関係ない。


相関係数だけは憶えた方が良いかもしれないけど、P値やら決定係数やら、ぶっちゃけ要らない。


AIもざっくり言うと相関係数を求めるのがAIなのでそんなに難しい話はしていない。

そんなわけで、これでどんどん論文を読めるようになったと思うので、自分のお好きな魚種の論文を読み耽って釣りを究めることが出来るようになったと思う。

今回はかなり適当な事を書いたような気がするけど・・・

コメントを見る