The jonki

呼ばれて飛び出てじょじょじょじょーんき

NAACL 2019のBest Paper Awardsを一人で読み会

NAACL 2019のBest Paper Awardsが公開されていましたので,1件を除いた*1ペーパーをLeading NLP Ninjaで解説しました.

Best Long Paper

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding anchor.fm

Best Short Paper

Probing the Need for Visual Context in Multimodal Machine Translation anchor.fm

Best Thematic Paper

What’s in a Name? Reducing Bias in Bios Without Access to Protected Attributes anchor.fm

Best Resource Paper

CommonsenseQA: A Question Answering Challenge Targeting Commonsense Knowledge anchor.fm

サポーター募集中

ポッドキャストの運営には実は色々とお金がかかっていまして,2ドル,5ドル,9ドルの月額サポータープランがあるので,もし良ければご加入待っております! www.patreon.com

*1:Best Explainable NLP Paperは量子力学を利用してNNの説明性を付与する,というモノで全然わかりませんでした.

ギブスサンプリング入門

前回2次元のガウス分布を条件付き確率により得られた1次元ガウス分布から推定する記事を書きましたが,今回はもっと単純な例で説明します. www.jonki.net

というのもGraham先生のチュートリアル資料(トピックモデル)にかなり分かりやすい例があったので,それを利用させていただいて説明します.チュートリアル資料の例題と対応しているので,それと合わせて本記事を見てみてください.

単純なサンプリング

まずサンプルする,ということはどういうことなのか,を説明します.これは何らかの確率分布から,その確率に応じてサンプル(標本)を抽出することを意味します.例えばある確率分布にはA, B, Cの3つの値がそれぞれ0.5, 0.3, 0.2で生起するような分布を考えます.そのような確率分布から1つののサンプルを得るには下記のようなコードになります.

import random

def sampleOne(probs):
    z = sum(probs.values())
    remaining = random.uniform(0, z)
    for k, v in probs.items():
        remaining -= v
        if remaining <= 0:
            return k

def main():
    probs = {
        'A': 0.5,
        'B': 0.3,
        'C': 0.2
    }

    N = 10000
    samples = {k: 0 for k in probs.keys()}
    for _ in range(N):
        sample = sampleOne(probs)
        # print('Try sample:', sample)
        samples[sample] += 1

    print('Result:')
    for k, v in samples.items():
        print('{}: {:.3f} ({}/{})'.format(k, v/N, v, N))

if __name__ == '__main__':
    main()

プログラムでは1万回サンプルを行い,A, B, Cがどれぐらいの確率で生起したか見てみましょう.だいたい元の分布の値と等しいですね.

$ python sample.py
Result:
A: 0.500 (5005/10000)
B: 0.302 (3016/10000)
C: 0.198 (1979/10000)

ちなみに上記コードのNを100に変えて,100回サンプルのときの例を見てみます.そうすると,先程よりも少しずれた値になってしまいました.このようにサンプリングでは基本的にサンプルする回数を多くすればするほど,元の分布に近しい値を獲得することができます.

Result:
A: 0.460 (46/100)
B: 0.300 (30/100)
C: 0.240 (24/100)

ギブスサンプリング

では,次にギブスサンプリングの説明をします.ギブスサンプリングでは,解析的に解けない同時確率を,条件付き確率に分解し,サンプリングを行うことで,元の確率(同時確率)を近似的に得ようというものです.その際に,各々の確率変量は同時には扱えないので,1つ以外を残して固定することで(観測値とする),サンプリングを行うものです.

例題として,Graham先生の資料を利用します.この問題では,親A(父or母)と子B(息子or娘)が買い物をしている状況を考え,それぞれの同時確率(例えばP(母,娘))などをギブスサンプリングで求めます.Givenの情報として,AとBの条件付き確率は与えられているところからスタートしています.この例では同時確率は,解析的に計算できてしまう(後述)のですが,まずはギブスサンプリングで得てみましょう.

今回はAとBの2変量なので,Bを固定した状態でAをサンプル(A'〜P(A|B)),Aを固定した状態でBをサンプル(B'〜P(B|A)を交互に行います(〜は確率分布からのサンプルを表します).そしてサンプルしたA'とB'が同時に買い物をしていた,としてカウントをしていき,各ケースの頻度を計算することで,擬似的に同時確率を求めます.このとき,AとBの初期値が必要になりますが,適当で良いです.

import random

# given probabilities
probs = {
    'mom|dag': 5/6,
    'fat|dag': 1/6,

    'mom|son': 5/8,
    'fat|son': 3/8,

    'dag|mom': 2/3,
    'son|mom': 1/3,

    'dag|fat': 2/5,
    'son|fat': 3/5
}

def sampleOne(probs):
    z = sum(probs.values())
    remaining = random.uniform(0, z)
    for k, v in probs.items():
        remaining -= v
        if remaining <= 0:
            return k

def gibbsSampling():
    samples = {
        'mom,dag': 0,
        'mom,son': 0,
        'fat,dag': 0,
        'fat,son': 0,
    }

    # initial values
    A = 'mom'
    B = 'dag'

    # sampling count
    N = 10000

    for _ in range(N):
        # Bを固定でAをサンプル
        _A = sampleOne({k:v for k, v in probs.items() if k.endswith(B)}).split('|')[0]
        # Aを固定でBをサンプル
        _B = sampleOne({k:v for k, v in probs.items() if k.endswith(A)}).split('|')[0]
        samples['{},{}'.format(_A, _B)] += 1

    print('Result:')
    for k, v in samples.items():
        print('P({}) = {:.3f} ({}/{})'.format(k, v/N, v, N))

if __name__ == '__main__':
    gibbsSampling()

これを実行すると,下記のようになりました.どうやらA=母,B=娘である確率が大きそうですね.

$ python gibbs_sampling.py
Result:
P(mom,dag) = 0.550 (5503/10000)
P(mom,son) = 0.278 (2776/10000)
P(fat,dag) = 0.111 (1107/10000)
P(fat,son) = 0.061 (614/10000)

ところでこの同時確率はギブスサンプリングを使わなくても解析的に解けるので,先程の事例の答え合わせができます.ベイズの定理より,下記が得られます.

P(母, 娘) = P(母|娘)P(娘)

P(娘)は明に与えられていませんが,娘と息子が選ばれる内,娘が選ばれる確率であるので,\frac{P(娘|母)+P(娘|父)}{P(娘|母)+P(娘|父)+P(息子|母)+P(息子|父)}=\frac{2/3+2/5}{2}=\frac{8}{15} \fallingdotseq 0.533で先程求めた値(0.55)と近しい値であり,正しくギブスサンプリングが出来ていそうです.他の同時確率についても同様に計算ができます.

まとめ

サンプリング及びギブスサンプリングについて,Graham先生の資料を元に説明してみました.条件付き確率にうまく分解し,ギブスサンプリングを行うことで,元の確率に近しいものを獲得できることを,実例で見てみました.名前は仰々しいですが,意外と単純なしくみですよね.

今回のプログラムは下記にまとめています.

github.com

2次元ガウス分布をギブスサンプリングする

2019/5/3 更新

ギブスサンプリングの簡単な例題を説明した記事を書いたので,こちらを先に見たほうが理解が進むかもしれません. www.jonki.net

ベイズ推論を勉強中に,サンプリングの1つ,ギブスサンプリングが出てきてよく分からず色々調べていたのだけど,ようやく少しわかったので,数式展開及びPythonのコードをかなり丁寧に書いてみた. はてなブログで数式を書こうと思ったけど,さすがにつらすぎたのでTeXで書いてみましたので,下記のリンクからPDFを見てみてください.

PDFには下記を含みます.

github.com

月次目標のおすすめ

はじめに

今回は大した記事じゃないんですが,月単位の目標を予め月初以前に作っていたらなかなか良かったという話です. もともとはRebuild.fmによく出てるhigeponさんが,何らかの目標を毎月立てて,あとで振り返りをしてるという話を聞いたことからなんですが,ちょうどやろうとしていたことがいつまで経っても消化されないなぁ,と思ってもいたのでやってみました.

月次目標の立て方

仕事にしろプライベートにしろなんでも良いと思うのですが,箇条書きにさっと書いてみます.月が始まる前に書くのが良いですが,月の途中でもやりたいことなどが出てきた場合は更新していました.ちなみに私の場合は,月の目標は仕事とプライベートで分けて管理しています.個人的にはGoogle Keepがおすすめです.Google Keepは他のノートアプリと比べて,整理する,ノートブックを作る,といった整頓作業がないので気持ちがだいぶ楽です.

3月の目標振り返り

私の立てた3月の目標は下記でした.打ち消し線は完了項目です.

内容的にはこんな感じでした. もともとはダラダラと読んでいた形態素解析本を早く読み切りたいなぁ,と思ったのがモチベーションとして大きかったので,個人的には満足行く結果です.だいたい80%ぐらい体感的に完了しました.

月次目標のメリット

やっぱり目標として明記されるので,その月の予定を管理しやすいですし,達成したかどうかが後から振り返って判断できるのでとてもおすすめです.実は1月からやっていたのですが,このときは目標を詰め込みすぎて,1つも達成できなかった,ということもありました.なんやかんやで平日働いているわけですし,それなりに現実的な項目に落とすのもテクニックかなと思います.

これを続けていけば,年末などに自分のやってきたことを振り返れますし,今年になって何を習得したか?といったことも定性的でなく定量的にある程度見れて非常に良いです.

よく年始に「〇〇をする!」みたいな目標を立てたりしますが,年だと正直単位が大きすぎるので,うまくブレークダウンして,スケジューリングしないと,結局立てた目標すら忘れてしまう事態になりがちです.その意味では月という期間はモチベーションや記憶の維持にちょうどよい期間なのではないかと思います.

毎日目標もおすすめ

これは余談ですが,毎日のやることも実はGoogle Keepに箇条書きで前日に書いておくと,明らかにその日のパフォーマンスは良いです.今日最低限これやろう!というぐらいで書いておいて,それが終わったらさっさと退社する,という風にしたところ残業も減りましたし,プライベートな時間で色々開発やらゲームやら出来て,両面で充実して良いです. おしりを決めて,作業するという事を大事に今年は過ごしていこうかなと思います.

まとめ

とまぁ,なんだか意識が高そうな人の記事になってしまったのですが,実はこれは逆でこのようにシステマティックにやらないと何もやらない性格なので,こういう風なやり方を実践してみました,という報告記事になりました. 明日から4月ですし,ぜひ皆さんも月次目標立ててみてはいかがでしょうか?

2018年に買ってよかったもの(日用品とガジェット)

今年も色々なことがあり,いろいろ言い訳を立てて色々買いました.今年買ってよかったものを振り返ります.

日用品

  • 折りたたみ傘

90gとアホみたいに軽いです.2回ほど使いましたが問題なく使えます.常に持ち歩きもできるレベルの軽さなので重宝しています.

  • TRUSCO工具箱

Youtubeで知ったこの箱.工具や筆記用具など様々な物が入れられます.ただの箱なんですが,無骨なデザインがグッとくる,素敵な商品でした.

  • 昼寝枕

会社で昼寝とかするときのために買ったものです.手が痺れないので,ぐっすりと寝れます(!?)

カッターでいいじゃん,と思うかもしれませんが,適度な切れ味のカッターなので,ガムテープの裁断にぴったりで,中の商品を傷つける心配も少ないです.使っていてとても気持ちが良いです.ネットショッピングたくさんする人は必須.

  • デカビタ

湯船に浸かりながらほぼ毎日飲んでます.適量なので最高.

サントリー デカビタC 160g×30本

サントリー デカビタC 160g×30本

ガジェット

  • 電源タップ+USB

出張/旅行用に購入.今まで電源タップとUSB-ACアダプタは個別に持っていましたが,正直これだけで済むようになりました.やや電源ケーブルが短いですが,軽くてコンパクトなので邪魔になりません.

写真のとおりです.Google Home miniの置き場所に困っていたのですが,これだとケーブルも露出せず見た目もスッキリ.音声認識も問題なくできて便利です.Echo dotでも類似商品を使っています.

  • 赤外線コントローラ

安価な赤外線のユニバーサルコントローラです.Google Home/Alexaでの声の操作やスマホからアプリ操作もできます.複数購入して部屋ごとに細かい設定もできて便利です.

  • ディスプレイ

USB C経由でMacbook proに接続でき,映像出力と給電ができて非常にスッキリして便利です.ディスプレイにUSBのハブ機能も持っているので,周辺機器も接続できて更に便利です.

初代がボロボロになって買い替え.毎日使ってます.冬は耳が寒くないので防寒グッズにもなります.

  • スタンディングデスク

腰痛持ちなので購入.意外と安いです.机もしっかりしていて広々快適に使えます.高さ調節もメモリ機能があり,気軽にできます.

  • aston origin

backspace fm御用達のマイク.高いですが,ポッドキャスト配信には最適なマイクの1つだと思います.

Macbook proをUSB Cケーブル一本で,映像出力,給電,USBハブ,e-SATAなど色々つなげるハブです.高いですが,しっかりと給電でき,熱問題もありません.ただEIZOのディスプレイを買ったので私の中ではオワコンに..

  • iPad Pro 2018 12.9 inch

軽い作業をしたいとき,簡単なメモを取りたい時,旅行先,などで活躍してくれてます.ディスプレイが大きくなったので論文もかなり読みやすいです.

Apple iPad Pro (12.9インチ, Wi-Fi, 512GB) - スペースグレイ

Apple iPad Pro (12.9インチ, Wi-Fi, 512GB) - スペースグレイ

まとめ

2018年,買ってよかったものをまとめてみました.今年前半は米国にいたためAmazon.comでたくさん買い物もできて楽しかったです.

来年もどうぞよろしくおねがいします!