開催日時:2022年9月13日(火)21時~22時
参加者:@K.Ogawa さん、@M_Murata さん、@おおさこ さん、@清水康友 さん、@みつひろ さん、@Arima さん、@Taira Kataoka さん、@まつお さん、@karu_bee さん、@菅原正士 さん、@Oyabu さん、@Katayamatoshihiro さん、@Yoshitada Kurozumi さん、@hiro86 さん

範囲:「Kaggleで勝つデータ分析の技術」2.6〜2.7
https://gihyo.jp/book/2019/978-4-297-10843-4

Google Colaboratory を使った資料を使って、みんなでディスカッションしました。
こちらに概要を記載しておきます。

Colab の ipynb を html に変換したものをダウンロードできるようにしてます。詳しくはこちらも並行してみていただければと思います。


2.6.1 balanced accuracy の最適化

✨ SIGNATE のコンペの評価指標として使われてた、と記載があります
✨ ただし、このコンペはもうクローズしてます(非公開になってます)
✨ なので、Titanic を例に考えてみました

2.6.2 mean-F1における閾値の最適化
✨ Kaggle の "Instacart Market Basket Analysis" を例に考えました
✨ ・・・が、かなりのデータ量なのでコンペ事例の紹介して…
✨ 簡略な例(書籍にある例)で考えてみました

2.6.3 quadratic weighted kappaによる閾値の最適化
✨ Kaggle の ”Prudential Lite Insurance Assesment" を例に考えました
✨ 回帰予測データを疑似的に作って QWK について試してみました

2.6.4 カスタム目的関数での評価指標の近似によるMAEの最適化
✨ 変則的ですが、カスタム目的関数を使いたい場合の例

2.7 リーク(data leak)
✨ ざーと流しただけでした

2.6.5    MCCのPR-AUCによる近似とモデル選択
この部分は割愛させていただきました。ごめんなさい・・・

    個人的な所感ですが、この本はすごく内容が充実してると思うんですが、文章表現がわかりにくいとも感じました。もう少し簡潔に要点をまとめた表現にしてほしいな・・・と:)


次回から 「第3章 特徴量の作成」です!楽しみですね:)