The jonki

呼ばれて飛び出てじょじょじょじょーんき

PU Learningについて勉強した

何がきっかけかは覚えていないのだが,Positive and Unlabeled Learningという学習方法があり,勉強したのでまとめた.

論文はこちら.2008年とやや古い.現時点での被引用数は606となっていた.

Learning Classifiers from Only Positive and Unlabeled Data

通常の2値分類問題では,通常は正例or負例のラベルが振られていることを前提とする. しかしPositive and Unlabeled Learningでは,負例のラベルが振られておらず,更に正例も一部しか振られていない状況である.つまりラベルなしデータは,正例と負例,どちらかの可能性となっている.下の図で言うところの,右上の青色(正例)以外の灰色の点は,ラベルなしという状況だ.

これを冒頭の論文の手法で解くと,右下のようにあら不思議,結構いい感じに識別できる.

数式の展開とサンプルプログラムは下記のリポジトリにまとめてある(PDFにまとめた).論文の完全なまとめではなく,一部を抽出したに過ぎないが,数式の展開や話の流れはある程度整理して書いた.基本的にはベイズの定理を使っているだけ.直接的にラベルを予想するのではなく,ラベルが振られているかどうか,に着目して式展開する,というのが本手法のアイデアとなっている.

github.com

勉強させていただいた情報

正例とラベル無しデータからの学習 (PU classification) | pillyshi's memo

論文読んだ「Learning Classifiers from Only Positive and Unlabeled Data」 - Speaker Deck