鈴木清へのご意見書き込み帳

293685
なんか、私のブログ(愚痴の書き込み場所)みたいになってしまっていますが、(^^;)

福井大学大学院工学研究科での鈴木清の仕事へのご意見を書き込んでください。それ以外のものについては、削除される可能性がありますので、予めご了承ください。また、猥褻な宣伝や危険なHPへのリンクのようなものを書き込んだ場合には、その書き込みに使われたIPアドレスをこちらにさらし、警察などに通報する場合があります。

なお、罵詈雑言でも構いませんが、なるべく、建設的なご意見を期待しております。 以前、エロサイトの宣伝が多く投稿されたので、私が承認しない限り、投稿が表示されないように設定を変更しました。 過去ログはこちら

情報処理基礎 - 鈴木

2021/03/05 (Fri) 15:00:30

物質・生命化学科1年生向けの情報処理基礎について

数理・データサイエンス対応1:複数の決定係数の定義 - 鈴木

2021/03/05 (Fri) 15:06:13

文部科学省も推進しているようなので。
https://www.mext.go.jp/a_menu/koutou/suuri_datascience_ai/00002.htm

2021年度から、関連する内容を少しずつ入れていこうかと考えています。

まずは、相関係数、決定係数などと思い、
LibreOfficeで試してみようと思いましたが、

こんなのが。

決定係数 R2 の違い: Excel, OpenOffice, LibreOffice および統計解析ソフト R を用いて
井口豊(生物科学研究所,長野県岡谷市)
最終更新:2018年11月6日
https://biolab.sakura.ne.jp/r-squared.html

LibreOffice7.1のヘルプページの「統計関数1」
https://help.libreoffice.org/7.1/ja/text/scalc/01/04060181.html?&DbPAR=WRITER&System=UNIX
に掲載されている決定係数の関数
rsq
はダメなようです。

井口さんのページに記されているように、
INDEX(LINEST(従属変数の範囲,独立変数の範囲,0,1),3,1)
が、
Kvalseth (1985) が紹介した 8 種類の異なる決定係数の定義の中でR27 に当たるものを表示するようです。

統計解析ソフト R (ver. 2.15.3)でも、その決定係数が表示されたらしいです。

8つも異なる「決定係数」があるとは・・・。

あ、「独立変数」とか「従属変数」って用語が、既に、統計理論上、おかしいのかも。

全然分かっていません。


2021年3月15日追記

R27は個人的には、良くないと思い始めています。
むしろ、相関係数とか、その二乗のR25?の方が良さそうです。
https://ja.wikipedia.org/wiki/%E7%9B%B8%E9%96%A2%E4%BF%82%E6%95%B0

分かりやすい説明、分かりにくい説明、誤解を生じる説明 - 鈴木

2021/03/12 (Fri) 18:01:11

Google colaboratory
を使って、数理・データサイエンスの、導入部分の学習をサポートできないか、検討しています。

私は数時間のWeb検索で、相関関数、決定係数、線形回帰、グラフ作成などできるようになったのですが、これを教えるとなると・・・学生さんはついてこれるのか、不安です。

あ、私が思うよりも学生さんの方がよく出来そうな気もしますが

2021年5月24日

上記の「相関関数」は誤りで、正しくは「相関係数」です。

Google colaboratoryを使わずに、ウェブブラウザでの通常の検索と、ウェブブラウザで見つかるような表形式の数値をGoogleスプレッドシートに適切に取り込む方法を説明して、授業内容のオンデマンド動画を作り上げました。

GoogleColaboratoryはUbuntuサーバー? - 鈴木

2021/03/15 (Mon) 14:29:35

結論から書くと、
!more /etc/os-release

NAME="Ubuntu"
VERSION="18.04.5 LTS (Bionic Beaver)"
ID=ubuntu
ID_LIKE=debian
PRETTY_NAME="Ubuntu 18.04.5 LTS"
VERSION_ID="18.04"
HOME_URL="https://www.ubuntu.com/"
SUPPORT_URL="https://help.ubuntu.com/"
BUG_REPORT_URL="https://bugs.launchpad.net/ubuntu/"
PRIVACY_POLICY_URL="https://www.ubuntu.com/legal/terms-and-policies/privacy-poli
cy"
VERSION_CODENAME=bionic
UBUNTU_CODENAME=bionic

なので、Ubuntuですね。

以下、色々な情報を出力させた際の雑メモです。

https://colab.research.google.com/github/aquapathos/Semi3B/blob/master/HowToUseJapaneseOnColab.ipynb

<引用>
# グラフに日本語フォントで出力するには

一番簡単なのは,japanize-matplotlib を使う方法です.

### インストール

~~~
!pip install japanize-matplotlib
~~~

### 使い方

~~~
import matplotlib.pyplot as plt
import japanize_matplotlib
~~~

pip インストールは japanize-matplotlib とハイフンなのに,import はアンダースコアであることに注意

<引用は以上>

とあったので、pipでPythonの便利な機能をインストールしていますが、同じページに、

<引用>

# グラフに日本語フォントで出力するには(別の方法)
ひと手間、いや、3手間ほど必要になります。


1. !apt-get -y install fonts-ipafont-gothic で日本語フォントを導入
2. !rm -r /root/.cache/matplotlib
3. ランタイムを再起動


### 補足
なお、フォントキャッシュのディレクトリは次のようにして確認できる。
```
import matplotlib
matplotlib.get_cachedir()
```

2のステップで、fontList.json を削除すると書かれているサイトが多いのだが、fontList.json はなかったり、あったりするので、matplotlib ごと削除してみたらうまくいった。弊害があるかもしれない。

<引用は以上>

とのことで、apt-getが使われています。これって、debian系?なんかdebianユーザーである鈴木は嬉しいです。


!uname -a
したら、
Linux c80992f74866 4.19.112+ #1 SMP Thu Jul 23 08:00:38 PDT 2020 x86_64 x86_64 x86_64 GNU/Linux

!pwd

/content

!ls /

bin datalab home lib64 opt run sys tools
boot dev lib media proc sbin tensorflow-1.15.2 usr
content etc lib32 mnt root srv tmp var

!ls /etc

debian_version
などが表示されました。

!more /etc/debian_version

buster/sid

色々な情報をpandas_datareaderで - 鈴木

2021/03/15 (Mon) 14:48:14

取得できます。

詳細は
https://pandas-datareader.readthedocs.io/en/latest/remote_data.html

OECDのもあるようです。
https://stats.oecd.org/
これは、
科学技術と環境
でも使えるかも

欲しいデータを得ることの難しさ - 鈴木

2021/03/25 (Thu) 16:45:39

欲しいデータを得ることは難しいです。
というか、私の欲しいデータを得る能力が低いことを、改めて認識(痛感)しています。

過去に、アイスクリーム協会だったかどこかから、次のようなデータを見つけました。
すなわち、ある1年について、日本の中のある範囲の場所について、
月ごとの平均気温の数値データと、
各家庭あたりの平均の、月ごとのアイスクリームの購入金額の数値データ
です。
その平均気温と、平均購入額を散布図で描いて、直線近似を散布図中に書かせて、さらにslope関数とintercept関数、もしくは、近似直線の式を表示させる機能を利用して、近似直線の式を求める、そんな課題を学生さんに行ってもらっていました。

データの出所がわからなくなってしまったので、新しくデータを得ようと思いました。

estatに、大量のデータがあって、無料で利用できると知って、
estatのサイトの使い方のマニュアルをろくに読まずに、
estatでアイスクリームの購入金額を調べたら、見事に、
アイスクリーム・シャーベット
の4半期(3ヶ月ごと)の購入金額(各家庭あたりの平均値)が見つかりました。収録期間は2000年から2020年でした。

しかし、4半期ごとの、平均気温の、全国での平均値が、
2000年から2020年まで一枚に掲載されているような数値データの表は見つけることができませんでした。
ある1年について、その1年での平均気温の各県についての値が、すべての件について表示されている数値データの表は見つかったのですが。

そこで、気象庁のサイトで調べたら、
東京についてなら、
http://www.data.jma.go.jp/obd/stats/etrn/view/monthly_s3.php?%20prec_no=44&block_no=47662
にありました。

これを見つけるのに、2時間以上かかりました。泣きそうです。

Web上の情報には不正確なものも多い - 鈴木

2021/05/24 (Mon) 12:08:25

数理・データサイエンスの内容を取り込むために、本年度から授業内容に、「確率」や「統計」についての内容も少し含めています。
連続型の確率変数について、一般的に「分布」とあいまいに表現されるものとして、確率密度関数があります。
その語の定義をどのようにWeb上で記しているのか、検索するために、
「確率 密度 関数」をキーワードとして検索してみたら、

https://bellcurve.jp/statistics/course/6602.html

が見つかり、そのページの説明として、

https://bellcurve.jp/statistics/glossary/811.html

が「確率密度関数」の説明として見つかりました。そのサイトに記されている内容に、厳密には正しくないことが含まれていました。

<引用はここから>
連続型確率変数Xについて、ある関数y=f(x)が下式を満たすとき、f(x)はXについての確率密度関数となる。
<引用はここまで>

その下に、
f(x)≧0
という式と、
f(x)を-∞から∞まで積分すると1になる
という式が記されていて、

さらにLaTexのソースコードとして、
f(x) \geq 0, \hspace{20px} \int_{-{\infty}}^{\infty} f(x)dx = 1
が記されていました。

さらに、

<引用>
このとき、確率変数について、下のように表現できる。
<引用はここまで>

ここに、
P(a≦x≦b)がf(x)のx=aからx=bまでの定積分に等しい
という式が書かれていました。

さらに、その下に、その式のLaTexでのソースコードとして、
P(a \leq x \leq b) = \int_a^b f(x)dx

が記されていました。

正確に確率を理解できている人なら、上記のサイトの説明が間違っている(厳密ではない)ということが分かるはずです。

「となる。」の下にあるべき式と「このとき、」の下にあるべき式が反対です。

論理的な思考ができない人がそのサイトを作ったんでしょうね。

こんなサイトが、検索の上部に来るのだから、Web上の情報は不正確なものが多いですね。

ちなみに、
Wikipediaの説明
「確率密度関数」
https://ja.wikipedia.org/wiki/%E7%A2%BA%E7%8E%87%E5%AF%86%E5%BA%A6%E9%96%A2%E6%95%B0

「絶対連続確率分布での定義」

2021年5月24日 12時12分時点では正しいです。
さすが、多くの人が修正できるWikipedia。
ときどき、愚かな人が、悪戯などで間違った情報を書き込むようですが、
多くの人の目ん玉に晒されて変更できるものは、不正確な情報が訂正されるまでの時間も短いです。

linux kernelやdebian、Ubuntuのように。

名前
件名
メッセージ
メールアドレス
URL
文字色
編集/削除キー (半角英数字のみで4~8文字)
プレビューする (投稿前に、内容をプレビューして確認できます)

Copyright © 1999- FC2, inc All Rights Reserved.