MENU

データサイエンス塾

学習用記事– category –

統計学・機械学習などの理論や、プログラミングの学習に活用できる記事です。

PythonによるSVM(サポートベクターマシン)の実行

Pythonで機械学習のひとつSVM(サポートベクターマシン)を実行してみます。1963年に基礎理論が発表されてから未だに使用される事の多い、機械学習の代表的手法です。サポートベクターマシンとは以下のように、座標平面上に2種類のデータがあるとします。 ...

2019年10月20日
Pythonで同時に使われやすい単語ペアを調べる(共起分析)

Pythonで共起分析を行います。共起分析とは、文章の中で「同時に使われやすい言葉」を調べる分析手法です。（ネットワークをグラフィカルに図示したものを「共起ネットワーク」と呼びます。）以前、文章中の頻出単語を調べてみましたが、単純に文章中の...

2019年10月13日
仮説検定の手法一覧と、それらの使い分け方

「仮説検定」というのは、「ある仮説」が正しいのか間違えているのかを統計学的に検証する方法の事を言います。調べたい事柄がどんな事でも同じ手法を適用すれば良い訳ではなく、一体どんな仮説を検証したいかによって適切な手法は変わってきます。そこ...

2019年10月6日
Python+Doc2Vecで似た意味を持つ文章を調べる

以前、単語をベクトル化できる技術「Word2Vec」を用いて似た意味を持つ単語を調べてみました。今度は、文章をベクトル化できる技術「Doc2Vec」を用いて、似た意味を持つ文章を調べてみます。 https://analysis-navi.com/?p=2258 Doc2Vecは2014年に発表され...

2019年10月5日
Pythonによるワードクラウドの作成方法

「ワードクラウド」とは、文章中に現れる出現頻度の高い単語を抽出し、1枚の絵にしたものです。ある文章がどんな傾向なのか視覚的に"パッと見"で分かるので、手っ取り早く、かつ取っつきやすい方法のひとつです。オンラインでワードクラウドが作成できる...

2019年9月21日
Python+Word2Vecで似た意味を持つ単語を調べる

文章中に含まれる「単語の使われ方」を見て、そこから単語同士の類似性を測ってみます。そのためには単語を数字のベクトルで表現する必要があるのですが、今回はGoogleが2013年に発表した「Word2Vec」という技術を用いて行ってみます。当時、「王様」-「...

2019年9月8日
Pythonによる非階層型クラスタリング(k-means法)

非階層型クラスタリングの代表的手法である「k-means法」をPythonで実行してみます。k-means法の理論についてはこちらの記事をご覧ください。 https://analysis-navi.com/?p=618 ファイルの読み込み、k-means法の実行今回は理論編で使用したデータとほぼ...

2019年9月3日
「次元削減」の意味と活用方法

様々な場面で大活躍するデータ分析手法、「次元削減(次元圧縮)」とは一体何でしょうか。また、どのように使うのでしょうか。本記事では、次元削減の基本的な内容について整理しました。 Pythonで次元削減を行う方法については、別の記事に整理しています。...

2019年8月31日
Pythonで文章中の頻出単語を抽出する方法

文章の中に出てくる頻出単語のカウント方法です。シンプルな分析ではありますが、頻出単語が分かるだけでもその文章データの持つ傾向を大まかに知ることができます。今回は例題として、夏目漱石「こころ」に出てくる頻出単語ランキングをPythonで作成して...

2019年8月25日
Pythonによる決定木分析の実行方法

データ分析手法のひとつ「決定木分析」をPythonで実行してみます。決定木分析は経営の意思決定などビジネスで活躍することの多い手法です。しかし、Excelでは実行できないためか一般的に用いられているシーンはそこまで見ません。しかし、決定木分析は非...

2019年8月19日
Pythonによるロジスティック回帰分析

例えば、スマホアプリを作ってリリースはしたものの、一体、どんなユーザが登録してくれるのか。性別、年齢・・・など、一体どんな傾向を持った人がユーザ登録してくれる傾向にあるのか。それが分かれば様々なマーケティングの手が打てます。そんな課題を...

2019年7月27日
Pythonによる階層型クラスタリングの実行方法

階層型クラスタリングをPythonで実行してみましょう。scipyのclusterというパッケージを使えば非常に簡単に作成することが出来ます。階層型クラスタリングの理論についてはこちらをご覧ください。 https://analysis-navi.com/?p=1805 データの読み込み今...

2019年7月14日

1 234 5