【まとめ】「Kaggleで勝つデータ分析の技術」輪読会 #3　

12リアクション

開催日時：2022年9月13日(火)21時～22時
参加者：@K.Ogawa さん、@M_Murata さん、@おおさこさん、@清水康友さん、@みつひろさん、@Arima さん、@Taira Kataoka さん、@まつおさん、@軽部俊和さん、@菅原正士さん、@Oyabu さん、@Katayamatoshihiro さん、@Yoshitada Kurozumi さん、@hiro86 さん

範囲：「Kaggleで勝つデータ分析の技術」2.6〜2.7
https://gihyo.jp/book/2019/978-4-297-10843-4

Google Colaboratory を使った資料を使って、みんなでディスカッションしました。
こちらに概要を記載しておきます。

Colab の ipynb を html に変換したものをダウンロードできるようにしてます。詳しくはこちらも並行してみていただければと思います。

https://drive.google.com/file/d/1BCc8VWTZmp2b3OM-NSUHvW2iS3JqfuUQ/view?usp=sharing

【まとめ】「Kaggleで勝つデータ分析の技術」輪読会 #3.zip

drive.google.com

2.6.1 balanced accuracy の最適化

✨ SIGNATE のコンペの評価指標として使われてた、と記載があります
✨ ただし、このコンペはもうクローズしてます（非公開になってます）
✨ なので、Titanic を例に考えてみました

2.6.2 mean-F1における閾値の最適化
✨ Kaggle の "Instacart Market Basket Analysis" を例に考えました
✨ ・・・が、かなりのデータ量なのでコンペ事例の紹介して…
✨ 簡略な例（書籍にある例）で考えてみました

2.6.3 quadratic weighted kappaによる閾値の最適化
✨ Kaggle の ”Prudential Lite Insurance Assesment" を例に考えました
✨ 回帰予測データを疑似的に作って QWK について試してみました

2.6.4 カスタム目的関数での評価指標の近似によるMAEの最適化
✨ 変則的ですが、カスタム目的関数を使いたい場合の例

2.7 リーク（data leak）
✨ ざーと流しただけでした

2.6.5 MCCのPR-AUCによる近似とモデル選択
この部分は割愛させていただきました。ごめんなさい・・・

個人的な所感ですが、この本はすごく内容が充実してると思うんですが、文章表現がわかりにくいとも感じました。もう少し簡潔に要点をまとめた表現にしてほしいな・・・と：）

次回から「第３章特徴量の作成」です！楽しみですね：）
https://cdle.jp/events/8d99e1af718b

このブログ一覧は

メンバー投稿記事

です

メンバー登録すると、限定記事の閲覧やメンバー同士の交流、限定イベントへの参加などができます。

CDLEコミュニティサイトβ版

JDLA（一般社団法人日本ディープラーニング協会）が実施する、G検定・E資格の合格者のみが参加できる、10万人を超える日本最大級のAIコミュニティ「CDLE」の紹介サイトです。 CDLEでは、ディープラーニングの社会実装の日本代表として、社会を発展させるエバンジェリストたちが集まり、学び合い・アウトプットする場を提供しています。

詳細を見る

CDLEメンバー

¥55/月(税込)

登録情報を確認の上、事前登録された方へ本登録のご案内メールを送信します。もっとみる閉じる

登録情報を確認の上、事前登録された方へ本登録のご案内メールを送信します。

このプランに入会する

その他のプランもみる

12リアクション

メンバーの方はこちらからログイン

公益財団法人大阪産業局 TEQS様主催ビジネス研究会レポート

介護・医療 × AI　万博を跨ぎ、世界へ新たな期待を

【まとめ】「Kaggleで勝つデータ分析の技術」輪読会 #3 CDLE大阪|ブログ一覧

【まとめ】「Kaggleで勝つデータ分析の技術」輪読会 #3

【まとめ】「Kaggleで勝つデータ分析の技術」輪読会 #3　
CDLE大阪
|
ブログ一覧

【まとめ】「Kaggleで勝つデータ分析の技術」輪読会 #3