Weekly Kaggle News #14
Datasets以外の3部門でKaggle Grandmasterの称号を持つDieterさんのインタビューが公開され、アイコンと実物の違いに戸惑う方々が目立ちました。インタビューの冒頭でも「アイコンの70歳以上のおじいちゃんではないことに驚いている人もいるのでは」といったやり取りが交わされています。Discussionにも驚嘆する投稿が集まっています。
日本語Wikipediaを対象に情報通信研究機構データ駆動知能システム研究センターが事前学習したBERTモデルが13日に公開されました。14日には、青空文庫・ウィキペディアで事前学習した日本語BERTモデルも公開されています。
二値分類問題の評価指標の一つ「MCC」の解説記事。他の指標との違いや導出など、丁寧にまとめられています。
Graph Convolutional Network を用いて、企業の取引関係を表す有向グラフから特徴を獲得して企業の格付を予測する手法を提案。グラフから特徴量エンジニアリングしてLightGBMを使った場合と比較して、AUCで高い性能を示したそうです。「第24回 人工知能学会 金融情報学研究会」(SIG-FIN)で発表予定でしたが、COVID-19の影響で中止となりました。SIG-FINの発表のいくつかは「【論文メモ】「第24回 人工知能学会 金融情報学研究会」で気になった発表」にまとめられています。
SIGNATEが転職スカウトサービスを開始。現在のところ「Expert」以上の称号を持つ方が登録可能になっています。
BERTを中心とした自然言語処理モデルについて解説しているPodcast。音声のみにもかかわらず、端的にBERTの概要を紹介しており分かりやすいです。
「Memory Error」の対処法について、いくつかのTipsをまとめた記事。具体的なPythonコードとともに説明されています。
アイリス株式会社が、機械学習用コンペ環境を構築するためのコードをOSSとして公開。管理者が評価指標などを定義し、参加者がファイルを投稿できる枠組みとなっています。
13日にarXivに論文投稿され話題となったAutoML「AutoGluon-Tabular」をKaggleのTitanicデータで試してみた記事。前処理不要でファイルパスを渡すだけで学習・予測が完了するのは非常に便利です。
時系列データからの特徴抽出について、考え方やツールを紹介している記事。先日転職したKaggle GrandmasterのSenkinさんがDataRobotの中の人として登場している点も注目です。