MENU

データサイエンス塾

Python– tag –

Python+Word2Vecで似た意味を持つ単語を調べる

文章中に含まれる「単語の使われ方」を見て、そこから単語同士の類似性を測ってみます。そのためには単語を数字のベクトルで表現する必要があるのですが、今回はGoogleが2013年に発表した「Word2Vec」という技術を用いて行ってみます。当時、「王様」-「...

2019年9月8日
Pythonによる非階層型クラスタリング(k-means法)

非階層型クラスタリングの代表的手法である「k-means法」をPythonで実行してみます。k-means法の理論についてはこちらの記事をご覧ください。 https://analysis-navi.com/?p=618 ファイルの読み込み、k-means法の実行今回は理論編で使用したデータとほぼ...

2019年9月3日
Pythonで文章中の頻出単語を抽出する方法

文章の中に出てくる頻出単語のカウント方法です。シンプルな分析ではありますが、頻出単語が分かるだけでもその文章データの持つ傾向を大まかに知ることができます。今回は例題として、夏目漱石「こころ」に出てくる頻出単語ランキングをPythonで作成して...

2019年8月25日
Pythonによる決定木分析の実行方法

データ分析手法のひとつ「決定木分析」をPythonで実行してみます。決定木分析は経営の意思決定などビジネスで活躍することの多い手法です。しかし、Excelでは実行できないためか一般的に用いられているシーンはそこまで見ません。しかし、決定木分析は非...

2019年8月19日
Pythonによるロジスティック回帰分析

例えば、スマホアプリを作ってリリースはしたものの、一体、どんなユーザが登録してくれるのか。性別、年齢・・・など、一体どんな傾向を持った人がユーザ登録してくれる傾向にあるのか。それが分かれば様々なマーケティングの手が打てます。そんな課題を...

2019年7月27日
Pythonによる階層型クラスタリングの実行方法

階層型クラスタリングをPythonで実行してみましょう。scipyのclusterというパッケージを使えば非常に簡単に作成することが出来ます。階層型クラスタリングの理論についてはこちらをご覧ください。 https://analysis-navi.com/?p=1805 データの読み込み今...

2019年7月14日
Pythonによる重回帰分析

Pythonで重回帰分析を行ってみます。先にPythonによる単回帰分析の記事を読んでいただいたほうが分かりやすいかもしれませんが、こちらのみ読んでいただいても分かるようにはしております。また、今回もstatsmodelsライブラリを使用します。 https://anal...

2019年7月9日
Pythonによる回帰分析と結果の可視化

Pythonを使って回帰分析を行ってみましょう。理論や用語についてはこちらをご覧ください。 https://analysis-navi.com/?p=1217 データの読み込みまずは何はともあれ、データを読み込みます。今回は「気温とアイスクリームの売上」データを読み込み、その...

2019年6月29日
Pythonによる多クラス混同行列の作成と評価指標の計算

Pythonを使って多クラス混同行列を作り、評価指標を計算してみましょう。混同行列はsklearn.metricsパッケージを使うと非常に簡単に計算することができますので、Excelで計算させるよりもパッとPythonでやってしまいましょう。混同行列についてはこちら...

2019年6月21日
Pythonによるデータの代表値（平均値、中央値など）の計算

Pythonでデータを読み込み、列ごとに平均値や中央値などの「データの代表値」を計算してみましょう。データ分析の初めの一歩は、何はともあれ平均値、中央値などの「代表値」を求めることです。Excelでも計算は可能ですが、ファイルサイズが巨大な場合や...

2019年6月3日
Pythonで文章の類似度を計算する方法〜TF-IDFとcos類似度〜

Pythonで、2つの文章の類似度計算をしてみます。理論編は以下をご覧ください。 https://analysis-navi.com/?p=569 今回は例題として、以下の3つの文章について、それぞれの類似度を計算してみます。文章A「私は犬が好きです。」文章B「私は犬が嫌いです。...

2019年2月2日

1 23