Hallo, die letzte Woche hatte es in sich… Kurzzusammenfassung: 1.Ich habe noch einen kleinen, zweiten Server, den ich für das Monitoring, DNS, Achims Seiten, und Entwicklung nutze. Das ist ein billiger VServer, ich brauche weder die Netzwerkbandbreite noch den Hauptspeicher noch den bereitgestellten Plattenplatz jemals auch nur zur Hälfte - und die verbrauchte CPU-Laufzeit ist einfach lächerlich. Am letzten Wochenende habe ich ein bisschen was am Monitoring getan, sprich "mehr Monitoring". Und bald danach wunderte ich mich über sporadische Aussetzer im Monitoring. Frage #1: "Warum in aller Welt ist das Forum so oft nicht erreichbar?" Nun, die Antwort war, dass das Forum durchaus erreichbar war, aber der Hoster (Strato, to name the not innocent), ein Limit auf die Zahl der Prozesse und Threads gesetzt hat. Spassigerweise gibt es auch keine Meldungen im Systemlog, wenn ein Thread nicht gestartet werden kann (wer muss so etwas schon wissen?), deshalb hat's eine Weile gebraucht, bis ich wusste, was los war. Nun, in meinen Vertragsbedingungen steht etwas von CPU-, Hauptspeicher- und Festplattenspeicherlimits. Nirgendwo steht etwas von einem Prozesslimit, dass zuschlägt, wenn man keines der anderen Limits auch nur ansatzweise ausschöpft. Mir hat das ein paar Fehlalarme eingebrockt, und später ist dann mehrfach der Webserverprozess gestorben. Strato, ich glaube, ihr spinnt. Übersetzung in Business-Sprech: Die Zahl eurer Kunden reduziert sich um einen. Der neue Server ist schon da. 2.Ich hab' vor ein paar Wochen auf dem richtigen Server (Forum und so) mal caddy (den Webserver-Prozess) aktualisiert (von 0.11.0 auf erst 0.11.4 und vor ein paar Tagen auf 0.11.5), und auf meiner Seite getestet. Lief. Am Dienstag Abend habe ich dann mal die aktuelle Version im Forum eingespielt, ohne es zu merken (ein Script hat ein bisschen mehr gemacht als ich dachte). Mittwoch morgen kam die erste Frage, wieso die Benutzerin denn mit ihrem Internet Explorer nicht mehr ins Forum kommt, wohl aber mit Firefox. Und bald darauf noch zwei... Im Normalfall hätte ich gesagt: "Ihr habt Glück, und dürft endlich auf einen anderen Browser wechseln". Aber... mich störte, dass es plötzlich Probleme gab. Also habe ich nachgesehen. Und festgestellt, dass caddy am Abend davor neu gestartet worden war. Moment. 0.11.5. ChangeLog lesen. Hm, was könnte "- tls: Removed CBC ciphers from defaults" wohl heißen? Okay, eine Antwort ist klar - die chained block ciphers sind aus der Liste der Default-Cipher entfernt worden. Und es ist 2019 - Zeit so etwas zu entfernen, zumal ja wohl niemand mehr auf solchen Kram angewiesen ist. Denn alle halbwegs aktuellen Browser bzw. Libraries implementieren die neueren Sachen. Oder? Oder! Der IE benutzt nämlich die Systembibliotheken, und die sind auf alten Windowsversionen ziemlich alt. Also, was tun? Klar, die alten Cipher wieder re-aktivieren. Gut. Ich schätze, das löst das Problem - erstmal. Zumindest bis die Cipher ganz deaktiviert werden, und nicht nur aus der Defaultkonfiguration fliegen. Aber, liebe Benutzer antiker Browser (Übersetzung: "Sicherheitslücken in Form eines vor 5 oder 10 Jahren aktuellen Microsoft-Browsers"): Es wird nicht so lange dauern, bis auch andere Websites die alten Cipher abschalten. 3.Der neue Zweitserver ist da, also ziehe ich mal das DNS von der Kiste mit dem Namen x4 auf x8 um. Geht schnell. Dachte ich. Ahem. Klar. Bei der Gelegenheit habe ich dann mal auf x7 (der große Server mit dem Forum drauf) den Container mit dem DNS-Zeug drin gestoppt und wieder gestartet. Nein, halt - gestoppt ja. Aber gestartet bekam ich ihn nicht mehr. Und auch die anderen Container ließen sich weder stoppen noch starten. Offenbar hatte sich da irgendetwas aufgehängt (bloß was?). Irgendwann war ich es dann leid, und habe mir gesagt, dass das eine schöne Gelegenheit wäre, das Basissystem zu aktualisieren, und mal zu rebooten (das war eh' irgendwann fällig). So weit, so gut. Schlüssel für das große Dateisystem eingegeben, Container gestartet. Sah gut aus. Meine Seite aufgerufen. Au. Keine Verbindung zur Datenbank. Hm. Zurück zum DNS… Moment. PostgreSQL ist jetzt OK. Die anderen Datenbanken? MySQL sieht OK aus, ist aber eh nichts Wichtiges drauf (nur ein Piwik oder wie das heute heißt, für jemanden, der einen Wert darin sieht). Telefon klingelt. Forum funktioniert nicht. Die experimentelle Volltextsuche *sollte* das nicht verursachen, aber möglicherweise hab' ich da ja einen Fehler eingebaut. Moment. Welche Fehlermeldung? Bad Gateway. Das ist dann 'was Anderes. Danke, liebe void linux Entwickler, dass ihr immer noch einen php-fpm-pool installiert, wo schon einer ist, und dann noch dazu einen, der nicht funktionsfähig ist. Zurück zur MongoDB. Was sagt das Log jetzt? Platte voll? Nein, mit Sicherheit nicht. Da sind 54 GB frei. Inodes? Nein. strace anwerfen. Ach was, jetzt ist es genug, ich schalte die externe Volltextsuche wieder ab. 4.Der DNS-Container auf x7 ist wieder da, also kurz auf x8, der neuen Kiste, einen eingerichtet. Wobei hier "kurz" wirklich mal kurz bedeutete. Getestet. Funktionierte. Jetzt müsste ich nur beim Registrar der Domain eben die IP-Adresse in Nameserver-Record von alt auf neu ändern. Hm. Nichts gefunden. Vielleicht klappt es ja, die NS der Zone zu ändern (auf die alten Namen, mit neuem Glue). Fehlermeldung per Mail bekommen (unverständlich, unpräzise, ohne eine genaue Aussage, welcher Nameserver nicht geantwortet haben soll). Whois? Keine Änderung. Auch nach einer Stunde nicht. Dann zufällig das falsche Menü beim Registrar aufgemacht. *Da* ist die Funktion, die ich suche. 30 Minuten gewartet. Nochmal. Keine Fehlermeldung. 5.Jetzt wird es Zeit, Achims Seiten umzuziehen. Die Datenübertragung klappt, irgendwelche Probleme gibt es nicht, die Seite läuft bald. Gut. Starten wir den Container mal eben neu, nur um zu sehen, ob das klappt. Die Seite läuft nicht mehr. Datenbank nicht erreichbar. Hm. Aber sie läuft doch. Hm. "Plugin 'auth_socket' is not loaded." WTF? Das klappte doch eben noch? Abhilfe: mysqld_safe, use mysql, update user set plugin='mysql_native_password'. Aber ich hoffe, es hält - wenn nicht, muß ich noch mal ran. Systemadministration aus der Hölle. 6.Und nun… das Monitoring. Prometheus, node_exporter, blackbox_exporter, php-fpm, caddy, Total trivial. Damit ist man in 5 Minuten fertig. Äh, nein. Nicht mal ansatzweise. Eher so 500 Minuten. Immerhin ist man ja bei den Sachen, die einem verraten, was alles schlechter läuft als vorher, und stellt die Sachen dann ab. 7.Bei der Gelegenheit ein Hinweis an die Leute, die bei Debian Pakete Es ist ja toll, dass /etc/default/sshguard die Variable LOGFILES setzt, Aber wehe, sshguard läuft auf einem System mit systemd - da wird LOGFILES Wie viele Jahre gibt es systemd nun schon? Wie viele Jahre gibt es systemd nun schon in debian? Abhilfe:
Möglichkeit 2: (wenn 1 halt nicht geht, weil irgendwelche Dreckssoftware systemd braucht - proxmox, ihr dürft euch angesprochen fühlen)
Seufz. Wenn ich alles richtig mitgezählt habe, waren Achims Seite 3 Tage (+- etwas), das Forum 2 bis 3 Stunden, und meine Seite 32 Stunden down. Ich hoffe, jetzt ist erst mal Ruhe. Gruß, Uwe |
Zugang
Bilder
Rubriken
|
Übersichten
|
Forumsleben
|
Texte
Administratives
|
Hilfe
|