2019年2月2日 / 最終更新日 : 2024年6月16日 Takuma Nishimaki 学習用記事 Pythonで文章の類似度を計算する方法〜TF-IDFとcos類似度〜 Pythonで、2つの文章の類似度計算をしてみます。 理論編は以下をご覧ください。 2文章の類似度の計算〜Bag-of-wordsとcos類似度のしくみ〜 今回は例題として、以下の3つの文章について、それぞれの類似度を計 […]
2019年1月19日 / 最終更新日 : 2024年6月16日 Takuma Nishimaki 学習用記事 2文章の類似度の計算〜Bag-of-wordsとcos類似度のしくみ〜 翻訳システムやチャットボットなど、文章の内容を理解する(ように振る舞う)AIが日常の様々なシーンに登場するようになりました。 翻訳サイトで和文・英文の翻訳をした事のある方は多いと思います。 ・・・が、その翻訳結果を見ると […]
2019年1月12日 / 最終更新日 : 2024年6月16日 Takuma Nishimaki 学習用記事 非階層型クラスタリング「k-means法」の計算過程 クラスタリング手法の中でおそらく最も広く使用されている手法、k-means法(k-平均法)について説明します。 クラスタリングの概要については以下に整理しています。 「クラスタリング」とは何に使える?どんな手法がある? […]
2018年12月30日 / 最終更新日 : 2024年7月16日 Takuma Nishimaki 学習用記事 多クラス混同行列とその評価指標〜マクロ平均、マイクロ平均〜 多クラス分類における混同行列と、その性能評価指標について整理します。 2クラス分類とは、ある動物の画像が「ネコか、ネコ以外か」に分類するような2択問題を解くもの。 それに対し、多クラス分類とは、ある動物の画像が「一体何の […]
2018年12月8日 / 最終更新日 : 2024年7月16日 Takuma Nishimaki 学習用記事 2クラス混同行列とその評価指標〜再現率、適合率、F値、など〜 AIの精度評価をする時や、データ集計の際にによく用いられる混同行列(Confusion matrix)についてです。 また、そこから計算される色々な性能指標についても整理します。 (よく間違われますが、「混合行列」ではな […]
2018年12月5日 / 最終更新日 : 2024年6月16日 Takuma Nishimaki 学習用記事 データは綺麗に作ろう〜データクレンジングの基本〜 データの集計を行う際には、まず初めにきちんとデータ形式を確定させてからにしないと後々面倒になります。 例えば以下のような、10名の身長データがあるとします。 この表を見て、どう思われるでしょうか。 なんとなく「いい加減に […]
2018年12月1日 / 最終更新日 : 2024年9月17日 Takuma Nishimaki 学習用記事 PythonによるCSV/TSVの読み込みとデータの取得方法 Pythonでデータ分析をする為の「第一歩」として、CSV/TSVデータをPythonに読み込む方法を見ていきます。 ※ちなみに、CSVは「Comma Separated Values」つまりカンマで区切られたデータとい […]
2018年11月23日 / 最終更新日 : 2024年6月16日 Takuma Nishimaki 学習用記事 AI(人工知能)の能力レベル4段階 AI・人工知能というと、「周囲の温度を見て自動で冷却の強さを調整する冷蔵庫」や「洗濯物の重量により自動で水量を調整する洗濯機」などといった家電に始まり、プロの将棋棋士・囲碁棋士を打ち破るようなゲームをするものや、防犯カメ […]
2018年11月9日 / 最終更新日 : 2024年6月16日 Takuma Nishimaki 学習用記事 Pythonで配列の一部を取り出す「スライス」の方法 Pythonで配列の一部を色々な形で抽出する方法、通称「スライス」のまとめです。 「数値配列の一部分のみの合計値を求めたい」ですとか、「文字列の一部分のみ抽出したい」なんていう時にスライスの記法を知っておくと、簡素かつス […]