UNIX Probleme erkennen

Wenn man auf eine Maschine kommt und wissen will, was in letzter Zeit so passiert ist, gibt UNIX viele Hilfestellungen.

Bootzeitpunkt und Last: uptime

uptime

Der Befehl liefert die Zeit seit dem letzten Booten. Damit kann festgestellt werden, ob die Maschine zwischenzeitlich zusammengebrochen ist oder ausgeschaltet wurde.

Als weiterer Wert wird die load average geliefert. Dieser Wert sollte hin und wieder betrachtet werden, damit man ein Gefühl dafür bekommt, wie sich die Maschine im Normalzustand verhält. Als Daumenregel zeigt ein Wert über 1 eine gut belastete Maschine. Ab etwa 3 steht die Maschine unter Last.

Plattenfrage: df und du

df -v

zeigt an, welche Platten gemountet sind und wie voll sie sind. Ist die Platte über 90% gefüllt, kann das die Performance beeinflussen. Eine Platte, die zu 100% voll ist, ist ein Alarmsignal.

Mit dem Befehl

du -s *

kann festgestellt werden, wieviel Platz in den Verzeichnissen belegt sind. Achtung: der Befehl kann die Maschine erheblich belasten, da er durch alle Verzeichnisse rekursiv hinabsteigt.

Briefe aus dem Nirvana: mail, elm

Einige Prozesse schreiben E-Mails an root, wenn sie ein Problem haben. Aus diesem Grund ist es kein dummer Gedanke, sich diese Mails in den eigenen Briefkasten umleiten zu lassen. Es ist sinnvoll, den elm zu installieren. Das Durchblättern nach Fehlermeldungen geht damit deutlich schneller.

Andere Klagen: syslog

Wenn ein Prozeß Beschwerden hat, wendet er sich im Allgemeinen an den syslog-Dämon. Dieser protokolliert alles mit, was man ihm sagt. Welche Dateien beschrieben werden, findet sich in /etc/syslog.conf. Die Dateien, die hier aufgeführt werden, sollte man sich anschauen.

Alle Programme können sich an den syslog-Dämon wenden, um ihre Warnungen, Fehlermeldungen oder Notizen abzusetzen.

Anzahl der Benutzer: finger, who

Mit finger oder who stellt man fest, wer noch über eine andere Konsole angemeldet ist.

Netzverbindungen: netstat

UNIX-Maschinen werden heute oft als Server in Client/Server-Systemen eingesetzt. Es gibt also seltener Terminal-Anwender, sondern vermehrt Anwender, die eine Netzwerkverbindung haben, aber nicht eingeloggt sind.

netstat | more

zeigt die offenen Verbindungen zur Maschine an. Neben dem netstat gibt es weitere TCP/IP Wartungsmöglichkeiten.

Amoklaufende Prozesse: ps

Mit dem Kommando top kann man eine Hitparade der laufenden Prozesse bekommen, die alle paar Sekunden aktualisiert wird. Der Prozeß, der die Maschine am meisten belastet, steht oben. top ist freie Software, das für die meisten Systeme verfügbar ist.

Fehlt der top, muß man mit ps die Prozeßtabelle anzeigen lassen und auswerten. Durch mehrfachen Aufruf sieht man den Fortschritt. Hier ist besonders die CPU-Zeit der Prozesse interessant.

Leider sind die Parameter des ps nicht auf jeder Maschine gleich. Interessant sind in erster Linie verbrauchte CPU-Zeit und die Abstammungsverhältnisse der Prozesse. Geeignet sind folgende Befehle:

ps -ef SCO und SINIX zeigt CPU-Zeit, PPID und Startzeit

ps -ajx Linux, Solaris zeigt CPU-Zeit und PPID

ps -aux Linux, Solaris zeigt CPU-Zeit und Startzeit

PPID ist die Parent Process ID, also die Prozess-Nummer des Elternprozesses. Achtung: Boshafterweise steht beim ps -ef die PID vor der PPID und bei ps -ajx ist es umgekehrt.

Längere Beobachtung: sar und vmstat

Ist eine genauere und längere Beobachtung erforderlich, kann das Programm sar aktiviert werden. Mit

sar -A | more

kann man recht viele Informationen herausholen. Verfügt die Maschine nicht über sar, kann sie vielleicht vmstat.

vmstat 300 20

zeigt alle 5 Minuten eine Zeile mit der Auslastung der Maschine und wiederholt dies 20 Mal.

Interessant sind diese Auswertungen, weil sie die Quelle der Probleme anzeigen können. So weist beispielsweise ein starkes Swappen auf ein massives Speicherdefizit hin.

Nähere Infomrationen finden sich unter

man sar
man vmstat

Es ist sinnvoll, solche Beobachter regelmäßig laufen zu lassen, indem man sie in die crontab hängt. Der oft angemeldete Einwand des Performance-Verlustes ist bei heutigen Maschinen i. A. vernachlässigbar. Der Gewinn im Ernstfall aus solchen Protokollen von grossem Wert.

ps -ef	SCO und SINIX	zeigt CPU-Zeit, PPID und Startzeit
ps -ajx	Linux, Solaris	zeigt CPU-Zeit und PPID
ps -aux	Linux, Solaris	zeigt CPU-Zeit und Startzeit