2024-02-17

pathlibをもっと使おう

皆さんはPythonのpathlib使ってますか？私は非常によく使っています．例えば機械学習では学習の前に前処理を多く行うケースが非常に多いですが，このようなに知っておくと便利です．pathlibは意外とPython 3.4（2014年～）からとそれなりに新しいため，古くからのPythonユーザーは os.pathの方をよく使っているかもしれません．ただpathlibは文字列ではなくPathクラスとして扱ってくれることで，例えばLinux/Windowsのパス表記の違いを吸収してくれたりします．

pathlibとos.pathの比較は公式のpathlibドキュメントに譲るとして，私がよく使うpathlibのクラスを紹介します．また今回改めてドキュメントを眺めて知った便利関数も多いので，公式ドキュメントに目を通すのもオススメします．

今回は下記のような複数の素性の異なるデータセットに対して処理するケースなどを考えてみます．

.
├── datasetA
│   ├── abc
│   │   ├── a.wav
│   │   └── b.wav
│   └── def
│       └── d.wav
└── datasetB
    ├── 123.wav
    └── sub
        └── 456.wav

便利関数26選

検索・走査系

所定ディレクトリ以下にある特定のファイルを再帰的に探したい

この時に使えるのが，globあるいはrglobです．個人的にはrglobの方がショートカット記法になっていて，正規表現のタイポが避けられるので好んで使っています．スペースの都合上 list化して表示しています．

from pathlib import Path

In [1]: list(Path(".").rglob("*.wav"))
Out[1]:
[PosixPath('datasetA/abc/a.wav'),
 PosixPath('datasetA/abc/b.wav'),
 PosixPath('datasetA/def/d.wav'),
 PosixPath('datasetB/123.wav'),
 PosixPath('datasetB/sub/456.wav')]

In [2]: list(Path(".").glob("**/*.wav"))
Out[2]:
[PosixPath('datasetA/abc/a.wav'),
 PosixPath('datasetA/abc/b.wav'),
 PosixPath('datasetA/def/d.wav'),
 PosixPath('datasetB/123.wav'),
 PosixPath('datasetB/sub/456.wav')]

サブディレクトリをリストアップしたい

os.listdir 相当の捜査です．

In [3]: list(Path(".").iterdir())
Out[3]: [PosixPath('datasetA'), PosixPath('datasetB')]

編集系

絶対パス内の相対パスを取得したい

例えばデータセット内のディレクトリ構造を維持したまま，新たに別のディレクトリにしてパスをすげ替えてファイルを書き出す場合などに有用です．

In [4]: Path("/home/jojonki/datasetA/abc.wav").relative_to("/home/jojonki")
Out[4]: PosixPath('datasetA/abc.wav')

ファイル名や拡張子を変更したい

これもよく使います．

# ファイル名を変更
In [5]: Path("datasetA/abc.wav").with_name("AAA.mp3")
Out[5]: PosixPath('datasetA/AAA.mp3')

# 拡張子を除くファイル名を変更
In [6]: Path("datasetA/abc.wav").with_stem("AAA")
Out[6]: PosixPath('datasetA/AAA.wav')

# 拡張子を変更
In [7]: Path("datasetA/abc.wav").with_suffix(".mp3")
Out[7]: PosixPath('datasetA/abc.mp3')

# os.rename相当
In [8]: Path("datasetA/abc/b.wav").rename("datasetA/abc/c.wav")
Out[8]: PosixPath('datasetA/abc/c.wav')

宣言系

Pathインスタンスを生成したい

非常に直感的にPathクラスを作れます．例えば何らかのデータのディレクトリに対して動的にパスを作る際などに便利です．

# スラッシュでつながる
In [9]: root_dir = Path("datasetA/abc")
In [9]: root_dir / "sub" / "def.wav"
Out[9]: PosixPath('datasetA/abc/sub/def.wav')

# os.path.joinと同様
In [10]: Path("datasetA").joinpath("abc", "def.wav")
Out[10]: PosixPath('datasetA/abc/def.wav')

生成系

ディレクトリを生成したい

In [11]: Path("datasetC/").mkdir()

# 必要に応じて親ディレクトリも作成．mkdir -p, os.makedirs相当
In [12]: Path("datasetD/1/2/3/4/5").mkdir(parents=True)

ファイルを読み書きしたい

これは知りませんでしたが便利そうです．

In [13]: Path("README.txt").write_text("# Title\nhello")
Out[13]: 13
    
In [14]: Path("README.txt").read_text()
Out[14]: '# Title\nhello'

アクセス系

これらもよく使うので頭の片隅に入れておくと良いと思います．

パスの存在を確認したり，絶対パスを取得したい

# 存在確認
In [15]: Path("datasetA").exists()
Out[15]: True
    
# ディレクトリ？
In [16]: Path("datasetA").is_dir()
Out[16]: True
    
# 絶対パス？
In [17]: Path("datasetA").is_absolute()
Out[17]: False
    
# 絶対パス取得
In [18]: Path("datasetA").absolute()
Out[18]: PosixPath('/Users/jonki/sandbox/datasetA')

ファイル名に関しての色々な情報を取りたい

In [19]: Path("datasetA/abc/a.wav")
Out[19]: PosixPath('datasetA/abc/a.wav')

# 拡張子も含めて
In [20]: Path("datasetA/abc/a.wav").name
Out[20]: 'a.wav'

# 拡張子除く
In [21]: Path("datasetA/abc/a.wav").stem
Out[21]: 'a'

# 拡張子を取得
In [22]: Path("datasetA/abc/a.wav").suffix
Out[22]: '.wav'

# 最後の.gzだけ
In [23]: Path("data.tar.gz").suffix
Out[23]: '.gz'

# まとめて拡張子を取る
In [24]: Path("data.tar.gz").suffixes
Out[24]: ['.tar', '.gz']

# そのファイル/ディレクトリの親ディレクトリ
In [25]: Path("datasetA/abc/a.wav").parent
Out[25]: PosixPath('datasetA/abc')

# パスを分解
In [26]: Path("datasetA/abc/a.wav").parts
Out[26]: ('datasetA', 'abc', 'a.wav')

まとめ

以上Pythonのpathlibをまとめました．昨今はChatGPTなどでやりたいことを伝えればChatGPTが生成してくれますが，今回紹介したようなコードは非常によく使うので覚えておいて損はないと思います．文字列同士を無理やり駆使してファイル名を変更していたりするコードがたまにありますが，pathlibを使えばそのようなこともなくなりますね．

2024-02-15

プログラムの実行終了をトリガーにGmailを送る

機械学習におけるコーディングではプログラムの実行時間は長くなりがちです．機械学習時のプログラムはもちろん，データの前処理にも多くの時間がかかります．このようなプログラムを動かしている間は安心して~~Youtubeでも見て~~勉学に励みたいものです．

そこで今回はプログラム実行終了時に，自分から自分宛にGmailを送ってみるプログラムを作ってみます．メール送信にはMSMTPというSMTPクライアントを用います．Ubuntuを想定していますが，適当なLinuxでも動くはずです．

MSMTPのセットアップ

インストールは至極簡単です．

sudo apt install msmtp msmtp-mta

今回Gmailを使いたいのでGoogle アカウントのアプリパスワードにてmsmtp用の16桁のパスワードを発行してください．発行ができたら下記のファイルを作ってください．from, user, passwordは適宜変更してください．

cat ~/.msmtprc
# Set default values for all following accounts.
defaults
auth           on
tls            on
tls_trust_file /etc/ssl/certs/ca-certificates.crt
logfile        ~/.msmtp.log

# Gmail
account        gmail
host           smtp.gmail.com
port           465
tls_starttls   off
from           your.name@gmail.com
user           your.name
password       abcd efgh ijkl aaaa


# Set a default account
account default: gmail

これで下記のように実行してメールが送られていれば成功です．前者は本文だけ，後者はタイトル付きです．

echo "hello world." | msmtp your.name@gmail.com
echo -e "Subject: AAA\n\nhello" | msmtp your.name@gmail.com

いろいろな使い方

これだけでも十分便利になりそうですが，もうひと工夫してみましょう．

本文だけ or タイトル＆本文だけ渡して実行できるようにする

PATHの通った場所にスクリプトを置きます．これは適宜好きなものにしてください．

sudo touch /usr/local/bin/email
sudo chmod 700 /usr/local/bin/email
sudo chown you:you /usr/local/bin/email

プログラム（ /usr/local/bin/email ）は下記のようにしてみました．引数が1つのときは本文のみ，2つのときはタイトルと本文，というコマンドになります．

#!/bin/bash

RECIPIENT="your.name@gmail.com"

if [ "$#" -eq 2 ]; then
    SUBJECT=$1
    BODY=$2
elif [ "$#" -eq 1 ]; then
    SUBJECT="My Notification"
    BODY=$1
else
    echo "Usage: $0 'Description' [Title]"
    exit 1
fi

# メール送信
echo -e "Subject: $SUBJECT\n\n$BODY" | msmtp "$RECIPIENT"

確認してみましょう．2行まとめてターミナルに貼り付けて実行してください．

# wget終わったらメール送信する
# 本文だけ
wget "http://www.google.com" 
email "test content"

# タイトルと本文
wget "http://www.google.com" 
email "test title" "test content"

実行中のプロセスが終わったらメール送信する

実行時に今回のコマンドを渡していればよいですが，実行中のプログラムに対して終わったら知りたいな，という時もよくあります．無理やりその実行中のプログラムのpane上で上記のコマンドを送っておく，というのも手だとは思います．しかし今回は，プロセスを監視してそのプロセスが消えたときにメールを送信するプログラムにしてみます．これを pidwatcher と呼ぶことにします．

pidwatcher はpidwatcher <PID>とscreenやtmuxの別paneで実行しておきます，そのプロセスがなくなり次第，実行コマンドが本文になってメール送信が行われるので便利です．PIDはps等で特定してください．

#!/bin/bash

# Check if a PID is provided as an argument
if [ $# -eq 0 ]; then
    echo "Usage: $0 PID"
    exit 1　
fi

PID=$1 # Set the PID from the first argument

# Check if the process exists
if ! kill -0 $PID 2>/dev/null; then
    echo "Process does not exist: PID $PID"
    exit 1
fi

echo "Monitoring process $PID...　"

# Attempt to get the command line of the process
CMDLINE=$(cat /proc/$PID/cmdline 2>/dev/null | tr '\0' ' ')

# Monitor the process until it ends
while kill -0 $PID 2>/dev/null; do
    sleep 1
done

echo "Process with PID $PID has ended. Command was: $CMDLINE"
email "Process with PID $PID has ended." "Command was: $CMDLINE"

この使い方のバリエーションとして，pidwatcher <PID> &とすれば，バックグラウンドで動いてくれます．またpidwatcher <PID> <このPIDが終わったら実行したいプログラム>とすれば今のプログラムの実行終了を待ってから次のコマンドが実行されます．ただエラー処理などはないのでご注意ください．

まとめ

今回はMSMTPを使って，プログラムの実行終了をトリガーにGmailに通知メールが飛ぶプログラムを作りました．自分で作っておいてなんですが結構便利です．ちなみに今回のプログラムは95%ぐらいはChatGPTで作りました（シェルスクリプトなど癖のある言語では本当に便利ですよね）．

2024-01-16

2023年振り返り，読んでよかったもの，買ってよかったもの

今更感ありますが，昨年を色々振り返ってみます．

プライベート
仕事
読んでよかったもの
買ってよかったもの

プライベート

今年度から子供が保育園に通い始めたんですが，多くの風邪をもらってくるので結局保育園は6〜7割程度しか行けず，かなり大変でした．夫婦ともに在宅勤務で良かったけど，コロナ前の要通勤だったら完全に詰んでました．子供を持つと自分の中の仕事や趣味といったワタクシ以外の要素に多くの時間を割く必要があるので，親としても忍耐力を試される試練の年でしたが，経験的にはとても貴重だなと思っています．

あと夏・秋ごろになんとなくG検定と応用情報技術者を取りました．前者はネタなので良いとして，応用情報は改めてCSの分野を学びなおす機会になって良かったです．昨今DNNしかないので知識に偏りを感じていて，よい気分転換になりました．次は教養として統計検定の准1級あたり狙っています．

仕事

色々と年始に立てていた目標は残念ながらどれも達成できず．年初にしっかり予定を立てたい所存です．はい．

読んでよかったもの

今年は，技術書3冊，ビジネス書12冊，小説12冊の27冊を完読しました．中でも面白かったものを紹介します．

いわゆる頭のモヤつき（自問自答等）の心理学からアプローチして様々な実験結果などが書かれている科学本です．単純に読み物としても面白いですが，自分の中のchatterとの関わり方のヒントがいくつもあり実用性もあります．

Ｃｈａｔｔｅｒ（チャッター）―「頭の中のひとりごと」をコントロールし、最良の行動を導くための２６の方法

便利関数26選

検索・走査系

編集系

宣言系

生成系

アクセス系

まとめ

MSMTPのセットアップ

いろいろな使い方

本文だけ or タイトル＆本文だけ渡して実行できるようにする

実行中のプロセスが終わったらメール送信する

まとめ

プライベート

仕事

読んでよかったもの

買ってよかったもの

1. 経済的に無理なく買える状況にある

2. 賃貸物件では実現できない「購入したい積極的な理由」が存在する

3. 自分や家族のライフプランがある程度，固まっている

家を投資として見るのはやめよう

結局我が家はどうする．．？

デスク周り

日常