1〜2 ヶ月前くらいから、何週間かに1度くらいの頻度で不定期に発生してるんだけど、
backend を screen にして使ってる byobu と言うか、複数起動している screen にぶら下がってるプロセスが軒並み落ちるって現象が生じている。
場合によっては KVM で起こしてる VM (qemu-system-x86_64) も落ちてる場合もある。
本日の状況として、落ちた直後くらいに cygterm が反応しないのに気が付いて繋ぎ直して復旧させたのだが、
30秒毎の温度監視用に走らせてたプロセスの log 見ると、
以下の 15:15:20 までは正常に記録されていたが、その後 30 秒の間、15:15:50 までのどこかで落ちたらしく、復旧させた 15:17:49 までの約2分間のデータが欠損値になっている。
ps してみると
jounalctl も確認してみるが当該の時間帯には有益そうなログは見当たらず。
dmesg も収穫なし
メモリ不足で OOM Killer にやられた可能性もありそうだが、これどうやって調べれば?
backend を screen にして使ってる byobu と言うか、複数起動している screen にぶら下がってるプロセスが軒並み落ちるって現象が生じている。
場合によっては KVM で起こしてる VM (qemu-system-x86_64) も落ちてる場合もある。
本日の状況として、落ちた直後くらいに cygterm が反応しないのに気が付いて繋ぎ直して復旧させたのだが、
30秒毎の温度監視用に走らせてたプロセスの log 見ると、
以下の 15:15:20 までは正常に記録されていたが、その後 30 秒の間、15:15:50 までのどこかで落ちたらしく、復旧させた 15:17:49 までの約2分間のデータが欠損値になっている。
2024-09-27 15:15:20 7.0 27.0 2024-09-27 15:17:49 NaN NaN 2024-09-27 15:17:50 7.0 27.0
ps してみると
$ pstree -p | grep ssh -C1 | `-smbd-notifyd(2735) |-sshd(2033)-+-sshd(6701)---sshd(6746)---screen(6747)---screen(6780) | |-sshd(7094)---sshd(7146)---screen(7155)---screen(7185) | |-sshd(12584)---sshd(12638)---screen(12639)---screen(12669)-+-bash(12738)---emacs(18356)---{emacs}(18357) | | `-bash(19336)-+-grep(30059) | | `-pstree(30058) | `-sshd(13507)---sshd(13552)---screen(13553)---screen(13583)---bash(13665)---bash(14004)---python3(14031) |-systemd(3354)---(sd-pam)(3355)みたいな感じで
$ ps ax|grep screen 6747 pts/1 Ss+ 0:00 screen -T screen -c /usr/share/byobu/profiles/byoburc -xRS byobu bash -l 6780 ? Zs 2:28 [screen] <defunct> 7155 pts/3 Ss+ 0:00 screen -T screen -c /usr/share/byobu/profiles/byoburc -xRS TRlogger bash -l 7185 ? Zs 2:27 [screen] <defunct> 12639 pts/2 Ss+ 0:00 screen -T screen -c /usr/share/byobu/profiles/byoburc -xRS byobu bash -l 12669 ? Ss 0:00 SCREEN -T screen -c /usr/share/byobu/profiles/byoburc -xRS byobu bash -l 13553 pts/5 Ss+ 0:00 screen -T screen -c /usr/share/byobu/profiles/byoburc -xRS TRlogger bash -l 13583 ? Ss 0:00 SCREEN -T screen -c /usr/share/byobu/profiles/byoburc -xRS TRlogger bash -l 31194 pts/7 S+ 0:00 grep --color=auto screenPID 6747 と 7155 配下の 6780 と 7185 がゾンビ化してるらしく defunct して STAT が Zs ってなってる。
jounalctl も確認してみるが当該の時間帯には有益そうなログは見当たらず。
$ journalctl -o short-iso | grep -E '2024-09-27T15:15:[2345][0-9]' | sed -E 's/^(\S* )(\S*)/\1HOSTNAME/g' 2024-09-27T15:15:20+0900 HOSTNAME NetworkManager[1883]: <info> [1727417720.0252] dhcp4 (eth0): activation: beginning transaction (timeout in 45 seconds) 2024-09-27T15:15:20+0900 HOSTNAME NetworkManager[1883]: <info> [1727417720.1981] dhcp4 (eth0): dhclient started with pid 12293 2024-09-27T15:15:20+0900 HOSTNAME dhclient[12292]: DHCPDISCOVER on enp2s0f0 to 255.255.255.255 port 67 interval 3 (xid=0xaf436f6f) 2024-09-27T15:15:20+0900 HOSTNAME dhclient[12293]: DHCPDISCOVER on eth0 to 255.255.255.255 port 67 interval 3 (xid=0x165ff153) 2024-09-27T15:15:20+0900 HOSTNAME avahi-daemon[1720]: Joining mDNS multicast group on interface enp2s0f0.IPv6 with address fe80::c763:52df:a3d5:fa44. 2024-09-27T15:15:20+0900 HOSTNAME avahi-daemon[1720]: New relevant interface enp2s0f0.IPv6 for mDNS. 2024-09-27T15:15:20+0900 HOSTNAME avahi-daemon[1720]: Registering new address record for fe80::c763:52df:a3d5:fa44 on enp2s0f0.*. 2024-09-27T15:15:21+0900 HOSTNAME avahi-daemon[1720]: Joining mDNS multicast group on interface eth0.IPv6 with address fe80::5e8e:8e4:21f9:29f0. 2024-09-27T15:15:21+0900 HOSTNAME avahi-daemon[1720]: New relevant interface eth0.IPv6 for mDNS. 2024-09-27T15:15:21+0900 HOSTNAME avahi-daemon[1720]: Registering new address record for fe80::5e8e:8e4:21f9:29f0 on eth0.*. 2024-09-27T15:15:23+0900 HOSTNAME dhclient[12293]: DHCPDISCOVER on eth0 to 255.255.255.255 port 67 interval 7 (xid=0x165ff153) 2024-09-27T15:15:23+0900 HOSTNAME dhclient[12292]: DHCPDISCOVER on enp2s0f0 to 255.255.255.255 port 67 interval 7 (xid=0xaf436f6f) 2024-09-27T15:15:30+0900 HOSTNAME dhclient[12293]: DHCPDISCOVER on eth0 to 255.255.255.255 port 67 interval 14 (xid=0x165ff153) 2024-09-27T15:15:30+0900 HOSTNAME dhclient[12292]: DHCPDISCOVER on enp2s0f0 to 255.255.255.255 port 67 interval 13 (xid=0xaf436f6f) 2024-09-27T15:15:35+0900 HOSTNAME ntpd[2372]: Soliciting pool server 162.159.200.1 2024-09-27T15:15:36+0900 HOSTNAME ntpd[2372]: Soliciting pool server 163.44.97.196 2024-09-27T15:15:43+0900 HOSTNAME dhclient[12292]: DHCPDISCOVER on enp2s0f0 to 255.255.255.255 port 67 interval 19 (xid=0xaf436f6f) 2024-09-27T15:15:44+0900 HOSTNAME dhclient[12293]: DHCPDISCOVER on eth0 to 255.255.255.255 port 67 interval 17 (xid=0x165ff153) 2024-09-27T15:15:45+0900 HOSTNAME ntpd[2372]: Soliciting pool server 2606:4700:f1::1/var/log/syslog は基本 journalctl と同じだし、
dmesg も収穫なし
$ dmesg --time-format iso | grep -E '2024-09-27T15:15:[2345][0-9]'/var/log 以下一通り眺めてみたが、役に立ちそうなログが見当たらなかった。
メモリ不足で OOM Killer にやられた可能性もありそうだが、これどうやって調べれば?
タグ
コメントをかく