最近はいろいろなデータを見るようになりました。年収やGDP、視聴率、偏差値などなど、データは色々とあります。
職業柄、まぁ薬の効果とか、副作用とか・・・
少しばかり研究もしているので、そちらでもデータを作ったりします。そんな生活をしていると避けて通れないのが『統計』。まず、この統計ってなんだろうってことから。
統計って何だろう?
簡単に言うと統計はデータの扱い方/見方/示し方のための学問ってことでいいと思います。
正確には違うのかもしれませんが、今まで学んだ印象はこんな感じ。
本を読ませていただいたところでは、データサイエンティストの方々も統計の知識も使っているようですね。
ただし、統計にはこんな言葉もあります。
There are three kind of lies: lies, damned lies, and statistics
(世の中には3種類の嘘がある。嘘、大嘘、そして統計だ)
この言葉はアメリカの文学者 マーク・トウェインが、19世紀のイギリスの首相 ベンジャミン・ディズレーリ(1804年-1881年)のものとして紹介した言葉です。
ベンジャミン・ディズレーリがどのような気持ちで記載したかは今となってはわかりませんが、統計を勉強をしていると、しばしば出会う言葉ですね。
確かに様々なデータ等を見てみると、同じデータでも数字の示し方や書き方によって、だいぶ印象が違います。嘘ではないんだけど・・・
まぁ、違った認識になるよねって思うときがあります。
そんな内容も入れていけたらと思います。
今回は、統計学というよりも、データの見方/使い方で私が学んだことを書いていければと思います。ただ、私は統計の専門家ではないので、ご指摘いただけたらと思います。手持ちの資料等と合わせて、直していきたいと思います。
そんな感じで書きたいことをのんびりと書いていければ、と思います。
のんびり
参考文献)
増井敏克(2022) 図解まるわかりデータサイエンスのしくみ 翔泳社
孝忠大輔(2022) 紙と鉛筆で身につける データサイエンティストの仮説思考
コメント