学習用記事– category –
統計学・機械学習などの理論や、プログラミングの学習に活用できる記事です。
-
はじめてのPythonによるDataFrame処理
データ分析するためのツールの代表といえばExcelですが、複雑な処理をしたい場合にはExcelでは難しくなってきます。そんな時はPythonの出番です。Pythonでのデータ操作を使いこなせば、どんな複雑な処理であっても自由自在にデータ分析することができます... -
「t検定」の意味とExcelでの実行方法
ある会社の社員に「あなたにとってこの会社は100点中何点ですか?」というアンケートを取ったとします。その結果、全社員の平均値が昨年60点だったのが、今年は80点に上がりました。この結果を見ると、多くの方は社員満足度が向上したと考えると思います。... -
「分散」「標準偏差」を正しく理解しよう
データ分析や統計学を学ぶと、「分散」や「標準偏差」という言葉は極めて序盤に出てきます。なんとなく、「データのばらつき具合の指標」であることは分かっているですが、解釈が分かりづらいためか、実際にこれらの指標が用いられている事は少ないように... -
「相関係数」の意味とエクセルでの実行方法
「相関」とは、ある2つのデータが互いにどれほど影響を及ぼしているかを表す指標です。 例えば、ある売店において、「入り口から陳列棚までの距離」と「その商品の売上数」に相関関係があることが分かったとします。そうすると、売りたい商品は入り口付近... -
Pythonで化学式を構成元素に分解する
Pythonを用いて、化学式(組成式)を構成元素とその数に分割する方法です。例えば、「C16H10ClN3」というように記載された化学式を、{C:16,H:10,Cl:1,N:3}という辞書データに分解することをゴールとしています。 関数の作成 化学式を入力して、構成要素を... -
「クラスタリング」とは何に使える?どんな手法がある?
様々あるデータ分析手法の中でも非常に活躍の機会が多い「クラスタリング」ですが、一体クラスタリングとは何なのでしょうか? 一概に「クラスタリング」と言っても、その手法は様々です。それらの意味をきちんと理解して使わなければ、正しく分析を行えな... -
適切な誤差指標の選び方
何かしらで行った数値の「予測」と、「正解」がどれほど離れているかを評価したい時があります。例えば、あるサッカーチームの向こう10回の試合結果を2人で予測し合って、どちらの予想が近かったかで勝負するとします。 予測が3点で正解が5点なら誤差は2・... -
Pythonで相関係数を求めて可視化する方法
相関分析をPythonで実行し、可視化まで行ってみます。Excelでも相関分析は可能ですが、Pythonで実行すれば一度に全データの分布の傾向が一気に見れたり、視覚的に美しい図を作成したりと、ハイレベルな分析が簡単にできます。 データの読み込み 今回は以下... -
Pythonによる日付・時刻の計算
Pythonによる日付や時刻の計算方法を整理しました。 現在時刻の取得 まずはdatetimeライブラリをインポートします。現在日時の取得は簡単で、nowメソッドを呼び出します。 [crayon-68cac22e331e9923141692/] [crayon-68cac22e331ec857974309/] これで、現... -
「系統解析」の意味と様々な手法
系統解析とは、生物の持つDNAなどの情報を基にして、生物の進化の過程を推測する技術のことを言います。複数の生物の進化の過程をトーナメント表のように表した「系統樹」と呼ばれる図を作成する事が多くの場合の目的になります。 系統樹を生物の教科書な... -
「平均適合率」と「MAP」の意味
予測された「ランキング」がどれだけ正解に近いかを評価したい事があります。例えば、Googleのような文章検索システム。例えば「人工知能 仕組み」という言葉で検索したとすると、関連するホームページが上位に大量に出てきます。 人工知能の仕組みについ... -
Pythonでランダムフォレストを実行する方法
Pythonを使ってランダムフォレストを実行してみます。決定木分析を基調とした手法なので、先に決定木分析の記事を読んで頂いてからの方が分かりやすいかもしれません。 https://analysis-navi.com/?p=2007 ランダムフォレストとは 一言で言えば決定木分析...