不均衡データ分類タスクをDNNで解きたくなった際、under sampling + bagging 的なアプローチをしている論文を見つけたのでご紹介。
論文 "Deep Learning for Imbalanced Multimedia Data Classification" を参考にした不均衡データへのDNN適用事例。失敗例も含めてコードと共に分かりやすく解説しています。
「BERT」に代表される自然言語処理の事前学習済言語モデルの網羅的なサーベイ。2019年11月30日から情報を更新した資料で、最新の話題まで取り扱っています。
null
kNNを拡張した「Advanced kNN」を提案。学習データ内に存在しないクラスに属するデータに対して "unknown" と判定する機構を備えています。
アリババの金融関連会社から出た論文。小売業の売上を分析して季節性とTweedie分布の特徴を見い出し、NNとGBDTに適用することで時系列予測の精度を高めたと報告しています。
先日まで参加していたKaggle「WiDS Datathon 2020」コンペの解法まとめです。「検査データから1週間後の生死を当てる」というシンプルなテーブルコンペでした。本記事では、自分の復習用にザッとまとめたメモを共有します。 Place Link 2 https://www.kaggle.com/c/widsdatathon2020/discussion/132387 3 https://www.kaggle.com/c/widsdatathon2020/discussion/132292 4 https://www.kaggle.com/c/widsdatathon2020/disc…
Kaggleで開催されていた「WiDS Datathon 2020」コンペの解法まとめ。「検査データから1週間後の生死を当てる」というシンプルなテーブルコンペでした。
Congratulations to the (four!) first-place winners of the Quest Q&A Labeling competition, Dmitriy Danevskiy, Yury Kashnitsky, Oleg Yaroshevskiy, and Dmitry Abulkhanov who make up the team…
Kaggle公式ブログに掲載された、Kaggle「Google QUEST Q&A Labeling」1位チームへのインタビュー。鍵となった言語モデルの事前学習・Pseudo-labeling・後処理について解説しています。
DSBコンペ(DataScienceBowl 2019)の反省会を2/29 (土) に開催しました。金メダルチームが3チームも参加するなど、非常に学びの多い会でした。簡単ですが、備忘として記録を残しておきます。shirokane_frien
Kaggle「2019 Data Science Bowl」コンペの反省会の資料の一覧や発表メモ。2位の方の解法、10位の方の「shake up」に関する知見、カスタムロスを用いた評価指標の最適化など、盛りだくさんの内容です。
最近、Twitter のタイムラインで QWK (Quadratic Weighted Kappa: 二次の重み付きカッパ係数) の最適化が話題になっていたので個人的に調べていた。 QWK は順序つきの多値分類問題を評価するための指標で、予測を大きく外すほど大きなペナルティが与えられるようになっている。 また、予測値の分布が結果に影響する点も特徴的で、この点が今回取り扱う最適化にも関係してくる。 QWK の最適化については、Kaggle 本と、その著者 @Maxwell_110 さんによる次のブログエントリが詳しい。 ようするに、真のラベルの分布に沿った形で予測しないと最適な結果が得られない、…
ハイパーパラメータ調整ツール「Optuna」を用いて、評価指標「QWK」の最適化を試みる記事。連続値を離散値に変換するための閾値を探索しています。
"Linear Quiz Blending" や "Netflix Blending" と呼ばれる技法について、少し前にまとめたスライドを公開しました。 少し前からKaggleをやっている方だと「Kaggle Tokyo Meetup #5」*1での、Kaggle Grandmasterのsmlyさんの発表が印象的かもしれません。 Kaggle Avito Demand Prediction Challenge 9th Place Solution from Jin Zhan 実装はたとえば次のライブラリのものがあるそうです。 Linear Quiz Blending、実装はこんな感じ htt…
"Linear Quiz Blending" や "Netflix Blending" と呼ばれるアンサンブル技法についてまとめた記事。数式を交えて解説しています。
CatBoostの(カテゴリカラム指定ならぬ)テキストカラム指定機能を試してみました。本記事の内容は、discussion*1に投稿済です。 Kaggle「Real or Not? NLP with Disaster Tweets」*2コンペのデータセットを利用しました。 target_col = 'target' text_cols = ['text'] categorical_cols = ['keyword', 'location'] train_pool = Pool( X_tr, y_tr, cat_features=categorical_cols, text_features=t…
CatBoostの(カテゴリカラム指定ならぬ)テキストカラム指定機能を試した記事。生の文章が入ったカラムを指定できるので、サクッとベンチマークを作るには便利だと感じました。
An overview of semi supervised learning, weakly-supervised learning, unsupervised learning, and active learning. Focused on recent deep learning-based image re…
「半教師あり学習」周りのサーベイ。Semi-supervised Learning、Weakly-supervised Learning、Unsupervised Learning、Active Learning について、画像処理に関する事例を中心に手法をまとめています。
現代のITエンジニアには欠かせないスキル、機械学習をカードゲーム化! 技術書典8で頒布予定でした。
「タイタニック号の生存者予測」を題材にしたカードゲーム。特徴量モンスター&アルゴリズムマシンを駆使して、最終的には実際に特設サイト上で精度計算を実行する枠組みになっています。