YouTubeで学ぶPythonデータ分析・講座一覧【ファイルダウンロードあり】
YouTubeチャンネル「データサイエンス塾!!」にて公開しているPythonデータ分析講座の一覧です。
当ページにて、動画内で使用しているソースコードやファイルの共有も行っておりますので、ご自由にお使いください。
(アップロードの都合上、ファイル名やソースコードが動画と異なっているものがございますがご了承ください。)
間違い等ございましたらメールフォームよりご連絡いただけますと大変助かります。
入門編
「Pythonでデータ分析を始めてみたい!」という方向けの入門講座一覧です。
Jupyter notebook入門
何はともあれ、まずは手元のパソコンにPythonでデータ分析するための環境を手に入れましょう。
【動画を見る】
クリックして講座を見る
Python入門
Pythonを使える環境を手に入れたら、Pythonの基本的な書き方を覚えましょう。
【動画を見る】
クリックして講座を見る
【ソースコード】
1-2_Basic_Python.ipynb
データフレーム入門
Pythonでデータ分析する際に必要不可欠なライブラリ「pandas」の基本操作を覚えましょう。
【動画を見る】
クリックして講座を見る
【ソースコード】
1-3_Basic_Pandas.ipynb
【ファイル】
1-3_enquete.csv
続・データフレーム入門
pandasの基本操作、続編です。複数のデータフレームを結合する様々な方法をご紹介します。
【動画を見る】
クリックして講座を見る
【ソースコード】
1-3B_pandas2.ipynb
【ファイル】
1-3B_personNo_1.csv
1-3B_personNo_1B.csv
1-3B_personNo_2.csv
グラフ作成入門
Pythonでグラフを描くときに大活躍してくれるライブラリ「matplotlib」と「seaborn」の基本的な使い方を学びましょう。
【動画を見る】
クリックして講座を見る
【ソースコード】
1-4_Basic_Seaborn.ipynb
【ファイル】
1-4_weather_sample.csv
1-4_score_sample.csv
自然言語処理シリーズ
文章データを分析する「自然言語処理」をPythonで行うための様々なノウハウを紹介しています。
自然言語処理の基本
まずは文字列の基本的な操作から、MeCabを使用した形態素解析や、ワードクラウドの作り方まで解説しています。
【動画を見る】
クリックして講座を見る
【ソースコード】
2-1_NLP.ipynb
【ファイル】
2-1_kokoro.txt
文章の類似度計算〜TF-IDF & Cos類似度〜
Google検索などにも使われる「入力した文章と近い文章を探す」方法についてです。
文章と文章の類似度を数値で測る仕組みについても説明しています。
【動画を見る】
クリックして講座を見る
【ソースコード】
2-2_NLP_tfidf.ipynb
文章の類似度計算〜Doc2Vec〜
前の動画で紹介した「入力した文章と近い文章を探す」方法を、もっと正確に行う方法です。
「Doc2Vec」というディープラーニングの仕組みを使います。
【動画を見る】
クリックして講座を見る
【ソースコード】
2-3_NLP_doc2vec.ipynb
文章のグルーピング〜自然言語とK-means法〜
K-meansというクラスタリングの手法を用いて、近い文章同士をかたまりにしてグループに分ける方法です。
K-meansについては機械学習編で詳細に紹介しています。
【動画を見る】
クリックして講座を見る
【ソースコード】
2-4_NLP_kmeans.ipynb
【番外編】フリーコメント集計
形態素解析の技術を用いてアンケートの自由回答などから単語を抽出して素早く集計する方法です。
【動画を見る】
クリックして講座を見る
【ソースコード】
2-S1_NLP_freecomment.ipynb
【ファイル】
2-S1_enquete.csv
時系列分析シリーズ
年、月、日、時、分、秒といった、時間の経過に伴って変化するデータを分析する手法「時系列分析」の基本的な操作について説明しています。
時系列分析の基本
時系列データ専用のデータ集計方法や、折れ線グラフの描画の方法などについて解説しています。
【動画を見る】
クリックして講座を見る
【ソースコード】
3-1_TS.ipynb
【ファイル】
3-1_TS_sample.csv
自己相関、コレログラム、波形分解
時系列特有のデータフレーム操作、自己相関係数、コレログラムの描画、波形分解といった、一歩先の時系列分析の手法を紹介しています。
【動画を見る】
クリックして講座を見る
【ソースコード】
3-2_TS_correlogram.ipynb
【ファイル】
3-2_TS_sample2.csv
未来予測〜時系列モデリング〜
波形の傾向を見て、将来どのような時系列になるのか予測をしてみます。
この動画ではAR(自己回帰モデル)、MA(移動平均モデル) 、ARMA(自己回帰 移動平均モデル)、ARIMA(自己回帰 和分 移動平均モデル)、SARIMA(季節 自己回帰 和分 移動平均モデル)、SARIMAXといったモデルでの予測方法やAICによる当てはまりの良さのチェック方法をご紹介しています。
【動画を見る】
クリックして講座を見る
【ソースコード】
3-3_TS_modeling.ipynb
【ファイル】
3-3_TS_sample2.csv
未来予測〜ディープラーニング〜
機械学習の1つ「ディープラーニング」を用いた時系列予測を行います。その中でも、精度の良い推測が出来る事が多いとされるLSTMを用いています。
前作「モデリング」との違いについてもご紹介しています。
【動画を見る】
クリックして講座を見る
【ソースコード】
3-4_TS_LSTM.ipynb
【ファイル】
3-4_TS_sample2.csv
機械学習シリーズ
データサイエンスを始めAI開発と切っても切れない技術、「機械学習」の様々な手法と実装方法についてご紹介しています。
次元削減(次元圧縮)
なるべくデータの情報を失わないようにデータの次元数を減らすという教師なし学習の手法です。
複雑なデータを2次元平面にわかりやすく図示する時によく用いられます。
主成分分析に代表されるように次元削減の手法にも様々ございますが、今回は「特異値分解(SVD)」と「UMAP」について紹介しています。
【動画を見る】
クリックして講座を見る
【ソースコード】
4-1_DimReduction.ipynb
【ファイル】
4-1_skill_level.csv
非階層クラスタリング
データを近い者同士でグルーピングする教師なし学習の手法です。動画では非階層クラスタリングの代表手法「K-means法」をご紹介します。
【動画を見る】
クリックして講座を見る
【ソースコード】
4-2_Kmeans.ipynb
【ファイル】
4-2_skill_level.csv
階層クラスタリング
同じクラスタリングでも、全てのデータをトーナメント表のような樹形で表現する方法です。
方法は幾つもありますが、特に「ウォード法」について詳しくご紹介しています。
【動画を見る】
クリックして講座を見る
【ソースコード】
4-3_HCA.ipynb
【ファイル】
4-3_skill_level
重回帰分析
教師あり学習の基本となる手法であり、マーケティングなどでも大活躍するデータ分析手法の花形です。
実行方法に加え、結果の見方が考え方についてもご紹介しています。
【動画を見る】
クリックして講座を見る
【ソースコード】
4-4_Regression.ipynb
【ファイル】
4-4_sales.csv
4-4_sales_future.csv
ロジスティック回帰分析
同じ回帰分析でも、目的変数が2値、もしくは確率となる場合の回帰分析です。重回帰分析と実行方法はほぼ一緒ですが、結果の考え方などは異なりますので押さえておきましょう。
【動画を見る】
クリックして講座を見る
【ソースコード】
4-5_Logistic.ipynb
【ファイル】
4-5_user_data.csv
4-5_user_data_future.csv
決定木分析
データの構造を「木」のような形で表現する、非常に分かりやすく有用なデータ分析手法です。回帰問題、分類問題、どちらにも使用できます。
本動画ではdtreevizを用いた結果の可視化についてもご紹介しています。
【動画を見る】
クリックして講座を見る
【ソースコード】
4-6_DecisionTree.ipynb
【ファイル】
4-6_sales.csv
4-6_sales_future.csv
サポートベクターマシン(SVM)
ここからは同じ機械学習でも、より「AI」に近い手法となっていきます。
そのため、動画内でデータの分割手法や性能指標についても簡単にお話しさせて頂いております。
【動画を見る】
クリックして講座を見る
【ソースコード】
4-7_SVM.ipynb
ランダムフォレスト
「決定木分析」をパワーアップ?させたような教師あり学習の手法です。
【動画を見る】
クリックして講座を見る
【ソースコード】
4-8_RandomForest.ipynb
勾配ブースティング
こちらも「決定木分析」を応用した機械学習の手法です。 個人的にはBest of 教師あり学習、と呼んでも良いような手法で、簡単で高性能なAIモデルが作れる場合が多いです。
【動画を見る】
クリックして講座を見る
【ソースコード】
4-9_GBDT.ipynb
ディープラーニング
画像、音声、といった複雑なデータを使用したAIを作る場合は、まず間違いなくこの深層学習(ディープラーニング)が使用されます。世の中の「AI」の9割にはこの技術が使われているのではないのでしょうか。
ディープラーニングは、基本的にプロセスは置いておいて「良い結果」が得られれば良い、と言う場合に強力です。
【動画を見る】
クリックして講座を見る
【ソースコード】
4-10_DeepLearning.ipynb
その他のデータ分析(未分類)
まだシリーズ化していないデータ分析講座の一覧です。
相関分析
Excelでも相関は簡単に計算できますが、Pythonを用いると複雑な演算をしたり、結果をグラフィカルに表示したり、という事も容易く実行可能です。
【動画を見る】
クリックして講座を見る
【ソースコード】
9-1_Corr.ipynb
【ファイル】
9-1_Sample.csv
仮説検定
2つのグループの結果に「有意差があるのか」を統計学的に調査する仮説検定です。
データによって適用させる手法は違ってくるので、そのあたりも正しく使い分けられるようになりましょう。
【動画を見る】
クリックして講座を見る
【ソースコード】
9-2_Testing.ipynb
【ファイル】
9-2_Sample.csv
DNA分析〜BioPython入門〜
生物のゲノム情報に基づいて生命現象を解明するバイオテクノロジーの発展に伴い、コンピュータにDNA情報を分析させるニーズが高まってきました。
BioPythonライブラリを使えば、そんな生物情報の分析が楽に行えます。
【動画を見る】
クリックして講座を見る
【ソースコード】
9-3_BioPython.ipynb
統計モデリング〜最尤推定〜
最尤推定を用いた統計モデリングについて説明しています。その中でも基本的なGLM(一般化線形モデル)の意味や実行方法についてご紹介しています。
【動画を見る】
クリックして講座を見る
【ソースコード】
9-4_modeling_GLM.ipynb
【ファイル】
9-4_sales_sample.csv
生存時間分析
「イベントの発生時間」に焦点を当てたデータ分析手法である生存時間解析をPythonで実行してみましょう。
カプランマイヤー推定量の描き方、セミパラメトリックモデルにおけるCox比例ハザードモデル、ノンパラメトリックモデルにおけるログランク検定についてご紹介しています。
【動画を見る】
クリックして講座を見る
【ソースコード】
9-5_lifelines.ipynb
【ファイル】
9-5_lifelines.csv
9-5_lifelines2.csv
数理最適化〜PuLP〜
ナップサック問題、巡回セールスマン問題に代表される「数理最適化」をPythonで実行しましょう。
【動画を見る】
クリックして講座を見る
【ソースコード】
9-6_PuLP.ipynb
遺伝的アルゴリズム〜DEAP〜
DEAPを使用した遺伝的アルゴリズムをPythonで実行しましょう。
【動画を見る】
クリックして講座を見る
【ソースコード】
9-7_DEAP.ipynb
アソシエーション分析(バスケット分析)
アソシエーション分析(バスケット分析)をPythonで実行しましょう。
NetworkXによるネットワーク図の作成も行います。
【動画を見る】
クリックして講座を見る
【ソースコード】
9-8_basket.ipynb
【ファイル】
9-8_basket.csv