hack のためのネタ帳, etc,,,

状況

1〜2 ヶ月前くらいから、何週間かに1度くらいの頻度で不定期に発生してるんだけど、
backend を screen にして使ってる byobu と言うか、複数起動している screen にぶら下がってるプロセスが軒並み落ちるって現象が生じている。
場合によっては KVM で起こしてる VM (qemu-system-x86_64) も落ちてる場合もある。

本日の状況として、落ちた直後くらいに cygterm が反応しないのに気が付いて繋ぎ直して復旧させたのだが、
30秒毎の温度監視用に走らせてたプロセスの log 見ると、
以下の 15:15:20 までは正常に記録されていたが、その後 30 秒の間、15:15:50 までのどこかで落ちたらしく、復旧させた 15:17:49 までの約2分間のデータが欠損値になっている。
2024-09-27 15:15:20        7.0           27.0
2024-09-27 15:17:49        NaN            NaN
2024-09-27 15:17:50        7.0           27.0

ps してみると
$ pstree -p | grep ssh -C1
           |            `-smbd-notifyd(2735)
           |-sshd(2033)-+-sshd(6701)---sshd(6746)---screen(6747)---screen(6780)
           |            |-sshd(7094)---sshd(7146)---screen(7155)---screen(7185)
           |            |-sshd(12584)---sshd(12638)---screen(12639)---screen(12669)-+-bash(12738)---emacs(18356)---{emacs}(18357)
           |            |                                                           `-bash(19336)-+-grep(30059)
           |            |                                                                         `-pstree(30058)
           |            `-sshd(13507)---sshd(13552)---screen(13553)---screen(13583)---bash(13665)---bash(14004)---python3(14031)
           |-systemd(3354)---(sd-pam)(3355)
みたいな感じで
$ ps ax|grep screen
 6747 pts/1    Ss+    0:00 screen -T screen -c /usr/share/byobu/profiles/byoburc -xRS byobu bash -l
 6780 ?        Zs     2:28 [screen] <defunct>
 7155 pts/3    Ss+    0:00 screen -T screen -c /usr/share/byobu/profiles/byoburc -xRS TRlogger bash -l
 7185 ?        Zs     2:27 [screen] <defunct>
12639 pts/2    Ss+    0:00 screen -T screen -c /usr/share/byobu/profiles/byoburc -xRS byobu bash -l
12669 ?        Ss     0:00 SCREEN -T screen -c /usr/share/byobu/profiles/byoburc -xRS byobu bash -l
13553 pts/5    Ss+    0:00 screen -T screen -c /usr/share/byobu/profiles/byoburc -xRS TRlogger bash -l
13583 ?        Ss     0:00 SCREEN -T screen -c /usr/share/byobu/profiles/byoburc -xRS TRlogger bash -l
31194 pts/7    S+     0:00 grep --color=auto screen
PID 6747 と 7155 配下の 6780 と 7185 がゾンビ化してるらしく defunct して STAT が Zs ってなってる。

jounalctl も確認してみるが当該の時間帯には有益そうなログは見当たらず。
$ journalctl -o short-iso | grep -E '2024-09-27T15:15:[2345][0-9]' | sed -E 's/^(\S* )(\S*)/\1HOSTNAME/g'
2024-09-27T15:15:20+0900 HOSTNAME NetworkManager[1883]: <info>  [1727417720.0252] dhcp4 (eth0): activation: beginning transaction (timeout in 45 seconds)
2024-09-27T15:15:20+0900 HOSTNAME NetworkManager[1883]: <info>  [1727417720.1981] dhcp4 (eth0): dhclient started with pid 12293
2024-09-27T15:15:20+0900 HOSTNAME dhclient[12292]: DHCPDISCOVER on enp2s0f0 to 255.255.255.255 port 67 interval 3 (xid=0xaf436f6f)
2024-09-27T15:15:20+0900 HOSTNAME dhclient[12293]: DHCPDISCOVER on eth0 to 255.255.255.255 port 67 interval 3 (xid=0x165ff153)
2024-09-27T15:15:20+0900 HOSTNAME avahi-daemon[1720]: Joining mDNS multicast group on interface enp2s0f0.IPv6 with address fe80::c763:52df:a3d5:fa44.
2024-09-27T15:15:20+0900 HOSTNAME avahi-daemon[1720]: New relevant interface enp2s0f0.IPv6 for mDNS.
2024-09-27T15:15:20+0900 HOSTNAME avahi-daemon[1720]: Registering new address record for fe80::c763:52df:a3d5:fa44 on enp2s0f0.*.
2024-09-27T15:15:21+0900 HOSTNAME avahi-daemon[1720]: Joining mDNS multicast group on interface eth0.IPv6 with address fe80::5e8e:8e4:21f9:29f0.
2024-09-27T15:15:21+0900 HOSTNAME avahi-daemon[1720]: New relevant interface eth0.IPv6 for mDNS.
2024-09-27T15:15:21+0900 HOSTNAME avahi-daemon[1720]: Registering new address record for fe80::5e8e:8e4:21f9:29f0 on eth0.*.
2024-09-27T15:15:23+0900 HOSTNAME dhclient[12293]: DHCPDISCOVER on eth0 to 255.255.255.255 port 67 interval 7 (xid=0x165ff153)
2024-09-27T15:15:23+0900 HOSTNAME dhclient[12292]: DHCPDISCOVER on enp2s0f0 to 255.255.255.255 port 67 interval 7 (xid=0xaf436f6f)
2024-09-27T15:15:30+0900 HOSTNAME dhclient[12293]: DHCPDISCOVER on eth0 to 255.255.255.255 port 67 interval 14 (xid=0x165ff153)
2024-09-27T15:15:30+0900 HOSTNAME dhclient[12292]: DHCPDISCOVER on enp2s0f0 to 255.255.255.255 port 67 interval 13 (xid=0xaf436f6f)
2024-09-27T15:15:35+0900 HOSTNAME ntpd[2372]: Soliciting pool server 162.159.200.1
2024-09-27T15:15:36+0900 HOSTNAME ntpd[2372]: Soliciting pool server 163.44.97.196
2024-09-27T15:15:43+0900 HOSTNAME dhclient[12292]: DHCPDISCOVER on enp2s0f0 to 255.255.255.255 port 67 interval 19 (xid=0xaf436f6f)
2024-09-27T15:15:44+0900 HOSTNAME dhclient[12293]: DHCPDISCOVER on eth0 to 255.255.255.255 port 67 interval 17 (xid=0x165ff153)
2024-09-27T15:15:45+0900 HOSTNAME ntpd[2372]: Soliciting pool server 2606:4700:f1::1
/var/log/syslog は基本 journalctl と同じだし、
dmesg も収穫なし
$ dmesg --time-format iso | grep -E '2024-09-27T15:15:[2345][0-9]'
/var/log 以下一通り眺めてみたが、役に立ちそうなログが見当たらなかった。

メモリ不足で OOM Killer にやられた可能性もありそうだが、これどうやって調べれば?

コメントをかく


「http://」を含む投稿は禁止されています。

利用規約をご確認のうえご記入下さい

Wiki内検索

フリーエリア

管理人/副管理人のみ編集できます