学習用記事– category –
統計学・機械学習などの理論や、プログラミングの学習に活用できる記事です。
-
階層型クラスタリング(ウォード法、群平均法など)の計算過程
クラスタリング手法の一つ、階層型クラスタリングの計算過程について整理しました。階層型クラスタリングと一言で言っても様々な方法があるのですが、本記事では代表的な4手法について説明します。 クラスタリングの概要については以下に説明しています。 ... -
Pythonによるデータの代表値(平均値、中央値など)の計算
Pythonでデータを読み込み、列ごとに平均値や中央値などの「データの代表値」を計算してみましょう。 データ分析の初めの一歩は、何はともあれ平均値、中央値などの「代表値」を求めることです。Excelでも計算は可能ですが、ファイルサイズが巨大な場合や... -
「カイ二乗検定」の意味とエクセルによる計算方法
以下は、第40代以降の歴代内閣総理大臣経験者(東條英機〜安倍晋三)の血液型比率を表したグラフと、日本人全体の血液型比率を表したグラフです。 この結果を見て、"内閣総理大臣になるような人物"と、その血液型に関連性があるのかどうか分かるでしょうか?... -
回帰分析の意味とエクセルによる実行方法
以下は、「2015年から2017年の、月別平均気温(℃)とアイスクリームの売上(円/世帯)」のグラフです。 ※参考https://www.icecream.or.jp/biz/data/expenditures.htmlhttp://www.data.jma.go.jp/obd/stats/etrn/view/monthly_s3.php?prec_no=44&block_no=4... -
ディープラーニングの学習の仕組み
2015年あたりから、「AIと言えばディープラーニング(深層学習)」というくらい、ディープラーニングの実力やその可能性・発展性が浸透してきたように感じます。確かに画像認識を行いたいのなら今やディープラーニング一択に近いですし、音声認識や自然言語... -
Poisson distance(ポアソン距離)を用いた進化距離の計算方法
前回は「進化距離」の意味から、最も単純な進化距離の計算手法である「P-distance(P距離)」についてご説明させて頂きました。 https://analysis-navi.com/?p=841 今回はもう少し複雑な進化距離の指標であるポアソン距離(Poisson Correction distance/Poi... -
進化距離(evolutionary distance)の意味と計算方法
進化距離とは 「進化距離(evolutionary distance)」をご存知でしょうか。 「距離」という言葉は、広く使われている用法としては「家から病院までの距離」のように、その道の長さなどを測るために使われます。が、広義では、「ある2つのモノはどのくらい違... -
Pythonで文章の類似度を計算する方法〜TF-IDFとcos類似度〜
Pythonで、2つの文章の類似度計算をしてみます。理論編は以下をご覧ください。 https://analysis-navi.com/?p=569 今回は例題として、以下の3つの文章について、それぞれの類似度を計算してみます。文章A「私は犬が好きです。」文章B「私は犬が嫌いです。... -
2文章の類似度の計算〜Bag-of-wordsとcos類似度のしくみ〜
翻訳システムやチャットボットなど、文章の内容を理解する(ように振る舞う)AIが日常の様々なシーンに登場するようになりました。 翻訳サイトで和文・英文の翻訳をした事のある方は多いと思います。・・・が、その翻訳結果を見ると、どうも変な文章だな…... -
非階層型クラスタリング「k-means法」の計算過程
クラスタリング手法の中でおそらく最も広く使用されている手法、k-means法(k-平均法)について説明します。 クラスタリングの概要については以下に整理しています。 https://analysis-navi.com/?p=2957 k-means法のアルゴリズム k-means法は以下の手順でデ...