【まとめ】「Kaggleで勝つデータ分析の技術」輪読会 #12

開催日時：2023年1月24日(火)21時～22時
出席(敬称略)： K.ogawa,Kurozumi,Yano,M_Murata,福田,みつひろ,岡橋,karu_bee,Arima,katayama
発表者：清水康友

範囲：
「第4章モデルの作成」4.6その他のモデル～4.7モデルのその他のポイントとテクニック
p260-p270

【内容】
- 発表資料
下のリンクを参照してください。
4.6節
https://colab.research.google.com/drive/1c9RYxFVZEAgJmFoBCE19zGKxsf5Sau8o?usp=share_link
4.7節
https://colab.research.google.com/drive/1vQxMuRs3ODc4x8rtiKy-WKNZo0dcVz_g?usp=share_link
4.7節コラム
https://colab.research.google.com/drive/1NTY12JJVtk1OWjcRkJywib5cA-GsRlNN?usp=share_link

【ディスカッション】
・[コメント@_bee karu]KNNは学習すべきモデルが無いのがポイント（いわゆる力技≒パワープレイ）
・[コメント@Yoshitada Kurozumi]モデルのメリットとデメリットを簡単にまとめた物
▼ERT
ランダムフォレストの一種で、決定木を学習する際に、特徴量を選択するときに、ランダムに選択することで、決定木の偏りを減らし、学習精度を向上させる手法です。
メリットとして、データのスケールに対して頑健であり、特徴量の重要度を計算する必要がないことで、高速に学習ができることがあげられます。
デメリットとして、決定木の深さが浅いため、複雑なデータに対しては適していないことが挙げられます。
▼RGF
決定木を学習する際に、正則化項を加えることで、過学習を防ぐ手法です。
メリットとして、過学習を防ぐことができるため、複雑なデータに対しても有効であることがあげられます。また、学習データに対して高い汎化性能を発揮することができることがあげられます。
デメリットとして、学習に時間がかかることがあることが挙げられます。
▼FFM
推薦システムに使用されるアルゴリズムの一つで、疎なデータに対して高い性能を発揮するために設計されています。
メリットとして、疎なデータに対して高い性能を発揮することができるため、推薦システムなどに使用することで効果的であることがあげられます。また、特徴量の組み合わせに対して、交互作用を考慮することができるため、高次元のデータにも対応できることがあげられます。
デメリットとして、学習に時間がかかり、計算資源が必要なことがあることが挙げられます。また、大量のデータを扱う際には、メモリーを多く使用することがあるため、ハードウェアにも制限があることがあげられます。
・[コメント@Yoshitada Kurozumi]定型的なディレクトリ構成をサクッと作りたい場合は、Cookiecutterおすすめ https://qiita.com/Hironsan/items/4479bdb13458249347a1

【感想】
書籍内容の説明だけでなくもっとフォルダ構成の実践例など参加者の皆様から取り組みについて引きだせればよかったと反省しています。

次回は 2023/2/14(火) 21:00から @みつひろさんの輪読会です。

このブログ一覧は

メンバー投稿記事

です

メンバー登録すると、限定記事の閲覧やメンバー同士の交流、限定イベントへの参加などができます。

もっと詳しく

メンバーの方はこちらからログイン

プレ大阪・関西万博　冬のイベント

【まとめ】「Kaggleで勝つデータ分析の技術」輪読会 #10

【まとめ】「Kaggleで勝つデータ分析の技術」輪読会 #12CDLE大阪|ブログ一覧

【まとめ】「Kaggleで勝つデータ分析の技術」輪読会 #12

【まとめ】「Kaggleで勝つデータ分析の技術」輪読会 #12
CDLE大阪
|
ブログ一覧