[00:38:52] <wikibugs>	 (03PS1) 10TrainBranchBot: Branch commit for wmf/branch_cut_pretest [core] (wmf/branch_cut_pretest) - 10https://gerrit.wikimedia.org/r/954368
[00:38:56] <wikibugs>	 (03CR) 10TrainBranchBot: [C: 03+2] Branch commit for wmf/branch_cut_pretest [core] (wmf/branch_cut_pretest) - 10https://gerrit.wikimedia.org/r/954368 (owner: 10TrainBranchBot)
[00:54:57] <wikibugs>	 (03Merged) 10jenkins-bot: Branch commit for wmf/branch_cut_pretest [core] (wmf/branch_cut_pretest) - 10https://gerrit.wikimedia.org/r/954368 (owner: 10TrainBranchBot)
[01:19:38] <wikibugs>	 (03CR) 10Deni: [C: 03+1] "Approved on-wiki." [mediawiki-config] - 10https://gerrit.wikimedia.org/r/949171 (https://phabricator.wikimedia.org/T344306) (owner: 10Acamicamacaraca)
[01:25:40] <wikibugs>	 (03CR) 10Acamicamacaraca: "I can reschedule this for deployment." [mediawiki-config] - 10https://gerrit.wikimedia.org/r/949171 (https://phabricator.wikimedia.org/T344306) (owner: 10Acamicamacaraca)
[02:08:58] <jinxer-wm>	 (JobUnavailable) firing: (3) Reduced availability for job nutcracker in ops@codfw- https://wikitech.wikimedia.org/wiki/Prometheus#Prometheus_job_unavailable - https://grafana.wikimedia.org/d/NEJu05xZz/prometheus-targets - https://alerts.wikimedia.org/?q=alertname%3DJobUnavailable
[02:33:58] <jinxer-wm>	 (JobUnavailable) firing: (3) Reduced availability for job nutcracker in ops@codfw- https://wikitech.wikimedia.org/wiki/Prometheus#Prometheus_job_unavailable - https://grafana.wikimedia.org/d/NEJu05xZz/prometheus-targets - https://alerts.wikimedia.org/?q=alertname%3DJobUnavailable
[02:34:01] <icinga-wm>	 PROBLEM - Check systemd state on an-launcher1002 is CRITICAL: CRITICAL - degraded: The following units failed: produce_canary_events.service https://wikitech.wikimedia.org/wiki/Monitoring/check_systemd_state
[02:45:31] <icinga-wm>	 RECOVERY - Check systemd state on an-launcher1002 is OK: OK - running: The system is fully operational https://wikitech.wikimedia.org/wiki/Monitoring/check_systemd_state
[03:20:59] <icinga-wm>	 PROBLEM - snapshot of s2 in eqiad on backupmon1001 is CRITICAL: snapshot for s2 at eqiad (db1139) taken more than 3 days ago: Most recent backup 2023-08-31 03:10:45 https://wikitech.wikimedia.org/wiki/MariaDB/Backups%23Rerun_a_failed_backup
[03:34:07] <wikibugs>	 (03PS1) 10Terasail: Add 'confirmed' to Wikifunctions sysop add and remove [mediawiki-config] - 10https://gerrit.wikimedia.org/r/954363 (https://phabricator.wikimedia.org/T344261)
[04:32:11] <wikibugs>	 (03CR) 10Terasail: "Add Jdforrester as reviewer (WF Staff and reviewer of other WF changes)." [mediawiki-config] - 10https://gerrit.wikimedia.org/r/954363 (https://phabricator.wikimedia.org/T344261) (owner: 10Terasail)
[05:10:35] <icinga-wm>	 PROBLEM - snapshot of x1 in eqiad on backupmon1001 is CRITICAL: snapshot for x1 at eqiad (db1216) taken more than 3 days ago: Most recent backup 2023-08-31 05:05:47 https://wikitech.wikimedia.org/wiki/MariaDB/Backups%23Rerun_a_failed_backup
[06:05:53] <icinga-wm>	 PROBLEM - mailman archives on lists1001 is CRITICAL: CRITICAL - Socket timeout after 10 seconds https://wikitech.wikimedia.org/wiki/Mailman/Monitoring
[06:06:07] <icinga-wm>	 PROBLEM - mailman list info on lists1001 is CRITICAL: CRITICAL - Socket timeout after 10 seconds https://wikitech.wikimedia.org/wiki/Mailman/Monitoring
[06:10:03] <icinga-wm>	 RECOVERY - mailman archives on lists1001 is OK: HTTP OK: HTTP/1.1 200 OK - 50567 bytes in 0.105 second response time https://wikitech.wikimedia.org/wiki/Mailman/Monitoring
[06:10:17] <icinga-wm>	 RECOVERY - mailman list info on lists1001 is OK: HTTP OK: HTTP/1.1 200 OK - 8571 bytes in 0.265 second response time https://wikitech.wikimedia.org/wiki/Mailman/Monitoring
[06:33:58] <jinxer-wm>	 (JobUnavailable) firing: Reduced availability for job nutcracker in ops@codfw- https://wikitech.wikimedia.org/wiki/Prometheus#Prometheus_job_unavailable - https://grafana.wikimedia.org/d/NEJu05xZz/prometheus-targets - https://alerts.wikimedia.org/?q=alertname%3DJobUnavailable
[07:00:04] <jouncebot>	 Deploy window No deploys all day! See Deployments/Emergencies if things are broken. (https://wikitech.wikimedia.org/wiki/Deployments#deploycal-item-20230903T0700)
[09:26:19] <wikibugs>	 (03PS1) 10Marostegui: db1128: Host crashed [puppet] - 10https://gerrit.wikimedia.org/r/954392 (https://phabricator.wikimedia.org/T345509)
[09:28:30] <wikibugs>	 (03CR) 10Marostegui: [C: 03+2] db1128: Host crashed [puppet] - 10https://gerrit.wikimedia.org/r/954392 (https://phabricator.wikimedia.org/T345509) (owner: 10Marostegui)
[09:29:16] <jinxer-wm>	 (MediaWikiLatencyExceeded) firing: Average latency high: eqiad parsoid GET/200- https://wikitech.wikimedia.org/wiki/Application_servers/Runbook#Average_latency_exceeded - https://grafana.wikimedia.org/d/RIA1lzDZk/application-servers-red-dashboard?panelId=9&fullscreen&orgId=1&from=now-3h&to=now&var-site=eqiad&var-cluster=parsoid&var-method=GET - https://alerts.wikimedia.org/?q=alertname%3DMediaWikiLatencyExceeded
[09:34:16] <jinxer-wm>	 (MediaWikiLatencyExceeded) resolved: Average latency high: eqiad parsoid GET/200- https://wikitech.wikimedia.org/wiki/Application_servers/Runbook#Average_latency_exceeded - https://grafana.wikimedia.org/d/RIA1lzDZk/application-servers-red-dashboard?panelId=9&fullscreen&orgId=1&from=now-3h&to=now&var-site=eqiad&var-cluster=parsoid&var-method=GET - https://alerts.wikimedia.org/?q=alertname%3DMediaWikiLatencyExceeded
[10:35:02] <jinxer-wm>	 (JobUnavailable) firing: Reduced availability for job nutcracker in ops@codfw- https://wikitech.wikimedia.org/wiki/Prometheus#Prometheus_job_unavailable - https://grafana.wikimedia.org/d/NEJu05xZz/prometheus-targets - https://alerts.wikimedia.org/?q=alertname%3DJobUnavailable
[10:44:48] <icinga-wm>	 RECOVERY - Backup freshness on backup1001 is OK: Fresh: 130 jobs https://wikitech.wikimedia.org/wiki/Bacula%23Monitoring
[11:23:00] <jinxer-wm>	 (ProbeDown) firing: Service etherpad1003:9001 has failed probes (http_etherpad_nodejs_ip6)- https://wikitech.wikimedia.org/wiki/Runbook#etherpad1003:9001 - https://grafana.wikimedia.org/d/O0nHhdhnz/network-probes-overview?var-job=probes/custom&var-module=All - https://alerts.wikimedia.org/?q=alertname%3DProbeDown
[11:28:00] <jinxer-wm>	 (ProbeDown) resolved: (2) Service etherpad1003:7443 has failed probes (http_etherpad_envoy_ip4) - https://grafana.wikimedia.org/d/O0nHhdhnz/network-probes-overview?var-job=probes/custom&var-module=All - https://alerts.wikimedia.org/?q=alertname%3DProbeDown
[11:28:59] <jinxer-wm>	 (JobUnavailable) firing: (2) Reduced availability for job etherpad in ops@eqiad- https://wikitech.wikimedia.org/wiki/Prometheus#Prometheus_job_unavailable - https://grafana.wikimedia.org/d/NEJu05xZz/prometheus-targets - https://alerts.wikimedia.org/?q=alertname%3DJobUnavailable
[12:33:16] <jinxer-wm>	 (MediaWikiLatencyExceeded) firing: Average latency high: eqiad parsoid GET/200- https://wikitech.wikimedia.org/wiki/Application_servers/Runbook#Average_latency_exceeded - https://grafana.wikimedia.org/d/RIA1lzDZk/application-servers-red-dashboard?panelId=9&fullscreen&orgId=1&from=now-3h&to=now&var-site=eqiad&var-cluster=parsoid&var-method=GET - https://alerts.wikimedia.org/?q=alertname%3DMediaWikiLatencyExceeded
[12:38:16] <jinxer-wm>	 (MediaWikiLatencyExceeded) resolved: Average latency high: eqiad parsoid GET/200- https://wikitech.wikimedia.org/wiki/Application_servers/Runbook#Average_latency_exceeded - https://grafana.wikimedia.org/d/RIA1lzDZk/application-servers-red-dashboard?panelId=9&fullscreen&orgId=1&from=now-3h&to=now&var-site=eqiad&var-cluster=parsoid&var-method=GET - https://alerts.wikimedia.org/?q=alertname%3DMediaWikiLatencyExceeded
[13:38:16] <jinxer-wm>	 (MediaWikiLatencyExceeded) firing: Average latency high: eqiad parsoid GET/200- https://wikitech.wikimedia.org/wiki/Application_servers/Runbook#Average_latency_exceeded - https://grafana.wikimedia.org/d/RIA1lzDZk/application-servers-red-dashboard?panelId=9&fullscreen&orgId=1&from=now-3h&to=now&var-site=eqiad&var-cluster=parsoid&var-method=GET - https://alerts.wikimedia.org/?q=alertname%3DMediaWikiLatencyExceeded
[13:43:16] <jinxer-wm>	 (MediaWikiLatencyExceeded) resolved: Average latency high: eqiad parsoid GET/200- https://wikitech.wikimedia.org/wiki/Application_servers/Runbook#Average_latency_exceeded - https://grafana.wikimedia.org/d/RIA1lzDZk/application-servers-red-dashboard?panelId=9&fullscreen&orgId=1&from=now-3h&to=now&var-site=eqiad&var-cluster=parsoid&var-method=GET - https://alerts.wikimedia.org/?q=alertname%3DMediaWikiLatencyExceeded
[14:08:58] <jinxer-wm>	 (JobUnavailable) firing: (3) Reduced availability for job nutcracker in ops@codfw- https://wikitech.wikimedia.org/wiki/Prometheus#Prometheus_job_unavailable - https://grafana.wikimedia.org/d/NEJu05xZz/prometheus-targets - https://alerts.wikimedia.org/?q=alertname%3DJobUnavailable
[14:18:58] <jinxer-wm>	 (JobUnavailable) firing: (3) Reduced availability for job nutcracker in ops@codfw- https://wikitech.wikimedia.org/wiki/Prometheus#Prometheus_job_unavailable - https://grafana.wikimedia.org/d/NEJu05xZz/prometheus-targets - https://alerts.wikimedia.org/?q=alertname%3DJobUnavailable
[14:56:22] <icinga-wm>	 PROBLEM - mailman list info on lists1001 is CRITICAL: CRITICAL - Socket timeout after 10 seconds https://wikitech.wikimedia.org/wiki/Mailman/Monitoring
[14:56:50] <icinga-wm>	 PROBLEM - mailman archives on lists1001 is CRITICAL: CRITICAL - Socket timeout after 10 seconds https://wikitech.wikimedia.org/wiki/Mailman/Monitoring
[15:05:02] <icinga-wm>	 RECOVERY - mailman list info on lists1001 is OK: HTTP OK: HTTP/1.1 200 OK - 8572 bytes in 1.521 second response time https://wikitech.wikimedia.org/wiki/Mailman/Monitoring
[15:05:28] <icinga-wm>	 RECOVERY - mailman archives on lists1001 is OK: HTTP OK: HTTP/1.1 200 OK - 50567 bytes in 0.075 second response time https://wikitech.wikimedia.org/wiki/Mailman/Monitoring
[15:42:07] <wikibugs>	 (03PS3) 10Acamicamacaraca: Enable AbuseFilter blocks on shwiki [mediawiki-config] - 10https://gerrit.wikimedia.org/r/954240 (https://phabricator.wikimedia.org/T345513)
[15:51:38] <sukhe>	 db1128 paged again but is already depooled, expired ack from yesterday
[15:51:46] <sukhe>	 on phone but no action required anywya
[15:53:15] <Amir1>	 I'm going to resolve it so it doesn't page again
[15:53:25] <Amir1>	 (it was just expired page)
[15:53:46] <sukhe>	 yes, ok, fair 
[15:56:03] <jinxer-wm>	 (ProbeDown) firing: Service centrallog2002:6514 has failed probes (tcp_rsyslog_receiver_ip6)- https://wikitech.wikimedia.org/wiki/TLS/Runbook#centrallog2002:6514 - https://grafana.wikimedia.org/d/O0nHhdhnz/network-probes-overview?var-job=probes/custom&var-module=All - https://alerts.wikimedia.org/?q=alertname%3DProbeDown
[16:01:03] <jinxer-wm>	 (ProbeDown) resolved: Service centrallog2002:6514 has failed probes (tcp_rsyslog_receiver_ip6)- https://wikitech.wikimedia.org/wiki/TLS/Runbook#centrallog2002:6514 - https://grafana.wikimedia.org/d/O0nHhdhnz/network-probes-overview?var-job=probes/custom&var-module=All - https://alerts.wikimedia.org/?q=alertname%3DProbeDown
[18:13:05] <icinga-wm>	 PROBLEM - Host db1137 #page is DOWN: PING CRITICAL - Packet loss = 100%
[18:14:29] <Amir1>	 today is not kind to us
[18:14:32] <Amir1>	 let me check
[18:15:38] <moritzm>	 host has broken memory per SEL
[18:16:00] <moritzm>	 Corretable memory error rate exceeded for DIMM_B6
[18:16:05] <moritzm>	 Correctable memory error rate exceeded for DIMM_B6
[18:16:38] <Amir1>	 depooled
[18:16:48] <Amir1>	 that's only one replica left for x1
[18:17:02] <Amir1>	 tomrrow-me problem
[18:17:27] <moritzm>	 I'll open a DC ops task, the server is long OOW, but maybe we have a spare module
[18:18:58] <jinxer-wm>	 (JobUnavailable) firing: Reduced availability for job nutcracker in ops@codfw- https://wikitech.wikimedia.org/wiki/Prometheus#Prometheus_job_unavailable - https://grafana.wikimedia.org/d/NEJu05xZz/prometheus-targets - https://alerts.wikimedia.org/?q=alertname%3DJobUnavailable
[18:19:47] <wikibugs>	 10ops-eqiad, 10Data-Persistence: Broken DIMM on db1137 - https://phabricator.wikimedia.org/T345514 (10MoritzMuehlenhoff)
[18:20:02] <moritzm>	 and acked in VO
[18:43:19] <icinga-wm>	 RECOVERY - Host db1137 #page is UP: PING OK - Packet loss = 0%, RTA = 0.27 ms
[18:45:31] <icinga-wm>	 PROBLEM - MariaDB Replica IO: x1 #page on db1137 is CRITICAL: CRITICAL slave_io_state could not connect https://wikitech.wikimedia.org/wiki/MariaDB/troubleshooting%23Depooling_a_replica
[18:46:15] <icinga-wm>	 PROBLEM - mysqld processes #page on db1137 is CRITICAL: PROCS CRITICAL: 0 processes with command name mysqld https://wikitech.wikimedia.org/wiki/MariaDB/troubleshooting
[18:46:33] <icinga-wm>	 PROBLEM - MariaDB Replica SQL: x1 #page on db1137 is CRITICAL: CRITICAL slave_sql_state could not connect https://wikitech.wikimedia.org/wiki/MariaDB/troubleshooting%23Depooling_a_replica
[18:46:44] <icinga-wm>	 PROBLEM - MariaDB read only x1 on db1137 is CRITICAL: Could not connect to localhost:3306 https://wikitech.wikimedia.org/wiki/MariaDB/troubleshooting%23Master_comes_back_in_read_only
[18:46:49] <Amir1>	 Sigh
[18:46:57] * Emperor appears.
[18:47:28] <Emperor>	 I'm catching up with scroll, but can these all just be ACKd given db1137 is depooled and the lack of x1 master is a "tomorrow" problem?
[18:47:47] <Amir1>	 yeah, let's downtime it
[18:47:51] <moritzm>	 I've just acked them in VO
[18:48:01] <moritzm>	 (the three new ones, which are all related to the original one)
[18:48:06] <Amir1>	 moritzm: let's resolve it, otherwise it pages in 24 hours
[18:48:16] <moritzm>	 sure, can do
[18:48:28] <Amir1>	 I try to downtime it
[18:48:46] <moritzm>	 done
[18:49:18] <Amir1>	 thanks
[18:54:37] <Amir1>	 downtimed
[18:54:59] <Emperor>	 cool, thanks, I shall go back to my Sunday evening :)
[19:36:39] <wikibugs>	 10SRE, 10ops-eqiad, 10DBA, 10Data-Persistence: Broken DIMM on db1137 - https://phabricator.wikimedia.org/T345514 (10Marostegui)
[22:20:02] <jinxer-wm>	 (JobUnavailable) firing: Reduced availability for job nutcracker in ops@codfw- https://wikitech.wikimedia.org/wiki/Prometheus#Prometheus_job_unavailable - https://grafana.wikimedia.org/d/NEJu05xZz/prometheus-targets - https://alerts.wikimedia.org/?q=alertname%3DJobUnavailable