学習用記事– category –
統計学・機械学習などの理論や、プログラミングの学習に活用できる記事です。
-
Pythonによる重回帰分析
Pythonで重回帰分析を行ってみます。 先にPythonによる単回帰分析の記事を読んでいただいたほうが分かりやすいかもしれませんが、こちらのみ読んでいただいても分かるようにはしております。また、今回もstatsmodelsライブラリを使用します。 https://anal... -
エクセルによる重回帰分析
以前、回帰分析を用いて気温とアイスクリームの売上の関係について推測しました。 https://analysis-navi.com/?p=1217 「気温」の情報だけでもなかなか良い推測が出来たようですが、気温だけでなく、もっと色々なデータがあったとしたらどうでしょうか。例... -
Pythonによる回帰分析と結果の可視化
Pythonを使って回帰分析を行ってみましょう。理論や用語についてはこちらをご覧ください。 https://analysis-navi.com/?p=1217 データの読み込み まずは何はともあれ、データを読み込みます。今回は「気温とアイスクリームの売上」データを読み込み、その... -
Pythonによる多クラス混同行列の作成と評価指標の計算
Pythonを使って多クラス混同行列を作り、評価指標を計算してみましょう。 混同行列はsklearn.metricsパッケージを使うと非常に簡単に計算することができますので、Excelで計算させるよりもパッとPythonでやってしまいましょう。 混同行列についてはこちら... -
階層型クラスタリング(ウォード法、群平均法など)の計算過程
クラスタリング手法の一つ、階層型クラスタリングの計算過程について整理しました。階層型クラスタリングと一言で言っても様々な方法があるのですが、本記事では代表的な4手法について説明します。 クラスタリングの概要については以下に説明しています。 ... -
Pythonによるデータの代表値(平均値、中央値など)の計算
Pythonでデータを読み込み、列ごとに平均値や中央値などの「データの代表値」を計算してみましょう。 データ分析の初めの一歩は、何はともあれ平均値、中央値などの「代表値」を求めることです。Excelでも計算は可能ですが、ファイルサイズが巨大な場合や... -
「カイ二乗検定」の意味とエクセルによる計算方法
以下は、第40代以降の歴代内閣総理大臣経験者(東條英機〜安倍晋三)の血液型比率を表したグラフと、日本人全体の血液型比率を表したグラフです。 この結果を見て、"内閣総理大臣になるような人物"と、その血液型に関連性があるのかどうか分かるでしょうか?... -
回帰分析の意味とエクセルによる実行方法
以下は、「2015年から2017年の、月別平均気温(℃)とアイスクリームの売上(円/世帯)」のグラフです。 ※参考https://www.icecream.or.jp/biz/data/expenditures.htmlhttp://www.data.jma.go.jp/obd/stats/etrn/view/monthly_s3.php?prec_no=44&block_no=4... -
ディープラーニングの学習の仕組み
2015年あたりから、「AIと言えばディープラーニング(深層学習)」というくらい、ディープラーニングの実力やその可能性・発展性が浸透してきたように感じます。確かに画像認識を行いたいのなら今やディープラーニング一択に近いですし、音声認識や自然言語... -
Poisson distance(ポアソン距離)を用いた進化距離の計算方法
前回は「進化距離」の意味から、最も単純な進化距離の計算手法である「P-distance(P距離)」についてご説明させて頂きました。 https://analysis-navi.com/?p=841 今回はもう少し複雑な進化距離の指標であるポアソン距離(Poisson Correction distance/Poi... -
進化距離(evolutionary distance)の意味と計算方法
進化距離とは 「進化距離(evolutionary distance)」をご存知でしょうか。 「距離」という言葉は、広く使われている用法としては「家から病院までの距離」のように、その道の長さなどを測るために使われます。が、広義では、「ある2つのモノはどのくらい違... -
Pythonで文章の類似度を計算する方法〜TF-IDFとcos類似度〜
Pythonで、2つの文章の類似度計算をしてみます。理論編は以下をご覧ください。 https://analysis-navi.com/?p=569 今回は例題として、以下の3つの文章について、それぞれの類似度を計算してみます。文章A「私は犬が好きです。」文章B「私は犬が嫌いです。...