鈴木清へのご意見書き込み帳
情報処理基礎 - 鈴木
2021/03/05 (Fri) 15:00:30
物質・生命化学科1年生向けの情報処理基礎について
数理・データサイエンス対応1:複数の決定係数の定義 - 鈴木
2021/03/05 (Fri) 15:06:13
文部科学省も推進しているようなので。
https://www.mext.go.jp/a_menu/koutou/suuri_datascience_ai/00002.htm
2021年度から、関連する内容を少しずつ入れていこうかと考えています。
まずは、相関係数、決定係数などと思い、
LibreOfficeで試してみようと思いましたが、
こんなのが。
決定係数 R2 の違い: Excel, OpenOffice, LibreOffice および統計解析ソフト R を用いて
井口豊(生物科学研究所,長野県岡谷市)
最終更新:2018年11月6日
https://biolab.sakura.ne.jp/r-squared.html
LibreOffice7.1のヘルプページの「統計関数1」
https://help.libreoffice.org/7.1/ja/text/scalc/01/04060181.html?&DbPAR=WRITER&System=UNIX
に掲載されている決定係数の関数
rsq
はダメなようです。
井口さんのページに記されているように、
INDEX(LINEST(従属変数の範囲,独立変数の範囲,0,1),3,1)
が、
Kvalseth (1985) が紹介した 8 種類の異なる決定係数の定義の中でR27 に当たるものを表示するようです。
統計解析ソフト R (ver. 2.15.3)でも、その決定係数が表示されたらしいです。
8つも異なる「決定係数」があるとは・・・。
あ、「独立変数」とか「従属変数」って用語が、既に、統計理論上、おかしいのかも。
全然分かっていません。
2021年3月15日追記
R27は個人的には、良くないと思い始めています。
むしろ、相関係数とか、その二乗のR25?の方が良さそうです。
https://ja.wikipedia.org/wiki/%E7%9B%B8%E9%96%A2%E4%BF%82%E6%95%B0
分かりやすい説明、分かりにくい説明、誤解を生じる説明 - 鈴木
2021/03/12 (Fri) 18:01:11
Google colaboratory
を使って、数理・データサイエンスの、導入部分の学習をサポートできないか、検討しています。
私は数時間のWeb検索で、相関関数、決定係数、線形回帰、グラフ作成などできるようになったのですが、これを教えるとなると・・・学生さんはついてこれるのか、不安です。
あ、私が思うよりも学生さんの方がよく出来そうな気もしますが
2021年5月24日
上記の「相関関数」は誤りで、正しくは「相関係数」です。
Google colaboratoryを使わずに、ウェブブラウザでの通常の検索と、ウェブブラウザで見つかるような表形式の数値をGoogleスプレッドシートに適切に取り込む方法を説明して、授業内容のオンデマンド動画を作り上げました。
GoogleColaboratoryはUbuntuサーバー? - 鈴木
2021/03/15 (Mon) 14:29:35
結論から書くと、
!more /etc/os-release
で
NAME="Ubuntu"
VERSION="18.04.5 LTS (Bionic Beaver)"
ID=ubuntu
ID_LIKE=debian
PRETTY_NAME="Ubuntu 18.04.5 LTS"
VERSION_ID="18.04"
HOME_URL="https://www.ubuntu.com/"
SUPPORT_URL="https://help.ubuntu.com/"
BUG_REPORT_URL="https://bugs.launchpad.net/ubuntu/"
PRIVACY_POLICY_URL="https://www.ubuntu.com/legal/terms-and-policies/privacy-poli
cy"
VERSION_CODENAME=bionic
UBUNTU_CODENAME=bionic
なので、Ubuntuですね。
以下、色々な情報を出力させた際の雑メモです。
https://colab.research.google.com/github/aquapathos/Semi3B/blob/master/HowToUseJapaneseOnColab.ipynb
に
<引用>
# グラフに日本語フォントで出力するには
一番簡単なのは,japanize-matplotlib を使う方法です.
### インストール
~~~
!pip install japanize-matplotlib
~~~
### 使い方
~~~
import matplotlib.pyplot as plt
import japanize_matplotlib
~~~
pip インストールは japanize-matplotlib とハイフンなのに,import はアンダースコアであることに注意
<引用は以上>
とあったので、pipでPythonの便利な機能をインストールしていますが、同じページに、
<引用>
# グラフに日本語フォントで出力するには(別の方法)
ひと手間、いや、3手間ほど必要になります。
1. !apt-get -y install fonts-ipafont-gothic で日本語フォントを導入
2. !rm -r /root/.cache/matplotlib
3. ランタイムを再起動
### 補足
なお、フォントキャッシュのディレクトリは次のようにして確認できる。
```
import matplotlib
matplotlib.get_cachedir()
```
2のステップで、fontList.json を削除すると書かれているサイトが多いのだが、fontList.json はなかったり、あったりするので、matplotlib ごと削除してみたらうまくいった。弊害があるかもしれない。
<引用は以上>
とのことで、apt-getが使われています。これって、debian系?なんかdebianユーザーである鈴木は嬉しいです。
!uname -a
したら、
Linux c80992f74866 4.19.112+ #1 SMP Thu Jul 23 08:00:38 PDT 2020 x86_64 x86_64 x86_64 GNU/Linux
!pwd
で
/content
!ls /
で
bin datalab home lib64 opt run sys tools
boot dev lib media proc sbin tensorflow-1.15.2 usr
content etc lib32 mnt root srv tmp var
!ls /etc
で
debian_version
などが表示されました。
!more /etc/debian_version
で
buster/sid
色々な情報をpandas_datareaderで - 鈴木
2021/03/15 (Mon) 14:48:14
取得できます。
詳細は
https://pandas-datareader.readthedocs.io/en/latest/remote_data.html
OECDのもあるようです。
https://stats.oecd.org/
これは、
科学技術と環境
でも使えるかも
欲しいデータを得ることの難しさ - 鈴木
2021/03/25 (Thu) 16:45:39
欲しいデータを得ることは難しいです。
というか、私の欲しいデータを得る能力が低いことを、改めて認識(痛感)しています。
過去に、アイスクリーム協会だったかどこかから、次のようなデータを見つけました。
すなわち、ある1年について、日本の中のある範囲の場所について、
月ごとの平均気温の数値データと、
各家庭あたりの平均の、月ごとのアイスクリームの購入金額の数値データ
です。
その平均気温と、平均購入額を散布図で描いて、直線近似を散布図中に書かせて、さらにslope関数とintercept関数、もしくは、近似直線の式を表示させる機能を利用して、近似直線の式を求める、そんな課題を学生さんに行ってもらっていました。
データの出所がわからなくなってしまったので、新しくデータを得ようと思いました。
estatに、大量のデータがあって、無料で利用できると知って、
estatのサイトの使い方のマニュアルをろくに読まずに、
estatでアイスクリームの購入金額を調べたら、見事に、
アイスクリーム・シャーベット
の4半期(3ヶ月ごと)の購入金額(各家庭あたりの平均値)が見つかりました。収録期間は2000年から2020年でした。
しかし、4半期ごとの、平均気温の、全国での平均値が、
2000年から2020年まで一枚に掲載されているような数値データの表は見つけることができませんでした。
ある1年について、その1年での平均気温の各県についての値が、すべての件について表示されている数値データの表は見つかったのですが。
そこで、気象庁のサイトで調べたら、
東京についてなら、
http://www.data.jma.go.jp/obd/stats/etrn/view/monthly_s3.php?%20prec_no=44&block_no=47662
にありました。
これを見つけるのに、2時間以上かかりました。泣きそうです。
Web上の情報には不正確なものも多い - 鈴木
2021/05/24 (Mon) 12:08:25
数理・データサイエンスの内容を取り込むために、本年度から授業内容に、「確率」や「統計」についての内容も少し含めています。
連続型の確率変数について、一般的に「分布」とあいまいに表現されるものとして、確率密度関数があります。
その語の定義をどのようにWeb上で記しているのか、検索するために、
「確率 密度 関数」をキーワードとして検索してみたら、
https://bellcurve.jp/statistics/course/6602.html
が見つかり、そのページの説明として、
https://bellcurve.jp/statistics/glossary/811.html
が「確率密度関数」の説明として見つかりました。そのサイトに記されている内容に、厳密には正しくないことが含まれていました。
<引用はここから>
連続型確率変数Xについて、ある関数y=f(x)が下式を満たすとき、f(x)はXについての確率密度関数となる。
<引用はここまで>
その下に、
f(x)≧0
という式と、
f(x)を-∞から∞まで積分すると1になる
という式が記されていて、
さらにLaTexのソースコードとして、
f(x) \geq 0, \hspace{20px} \int_{-{\infty}}^{\infty} f(x)dx = 1
が記されていました。
さらに、
<引用>
このとき、確率変数について、下のように表現できる。
<引用はここまで>
ここに、
P(a≦x≦b)がf(x)のx=aからx=bまでの定積分に等しい
という式が書かれていました。
さらに、その下に、その式のLaTexでのソースコードとして、
P(a \leq x \leq b) = \int_a^b f(x)dx
が記されていました。
正確に確率を理解できている人なら、上記のサイトの説明が間違っている(厳密ではない)ということが分かるはずです。
「となる。」の下にあるべき式と「このとき、」の下にあるべき式が反対です。
論理的な思考ができない人がそのサイトを作ったんでしょうね。
こんなサイトが、検索の上部に来るのだから、Web上の情報は不正確なものが多いですね。
ちなみに、
Wikipediaの説明
「確率密度関数」
https://ja.wikipedia.org/wiki/%E7%A2%BA%E7%8E%87%E5%AF%86%E5%BA%A6%E9%96%A2%E6%95%B0
の
「絶対連続確率分布での定義」
は
2021年5月24日 12時12分時点では正しいです。
さすが、多くの人が修正できるWikipedia。
ときどき、愚かな人が、悪戯などで間違った情報を書き込むようですが、
多くの人の目ん玉に晒されて変更できるものは、不正確な情報が訂正されるまでの時間も短いです。
linux kernelやdebian、Ubuntuのように。