Leap 42.3 - System zerstört sich selbst

Hinweis: In dem Thema Leap 42.3 - System zerstört sich selbst gibt es 59 Antworten auf 6 Seiten. Der letzte Beitrag () befindet sich auf der letzten Seite.
  • Hallo,



    ich hoffe sehr, dass ich da im richtigen Abschnitt des Forums bin.
    Mein Problem ist gravierend, deshalb schreibe ich hier.
    Mein System: OpenSuSE Leap 42.3 - Computer: core i7 - EFI. Installation auf neuer SSD. Desktop: XFCE



    Es passiert nicht bei jedem Systemstart, meiner Beobachtung nach etwa ein Mal im Monat:
    Nachdem das System gebootet hat, fängt die LED vom Laufwerk an fast permanent zu leuchten.
    Meine Beobachtungen haben ergeben, dass dann Dateien vom System gelöscht werden, und auch von anderen gemounteten Partitionen.
    Irgendwann reagiert das System dann nur noch mit Fehlermeldungen: "Datei soundso nicht gefunden" ...
    Man kann dann nicht mal mehr herunter fahren, nur noch ausschalten.
    Nach solch einem "Ereignis" stelle ich dann bisher das komplette System aus einem Acronis Backup wieder her.



    In der letzten Zeit habe ich dazu eine Entdeckung gemacht:
    Wenn dieser Fehler wieder auftritt, geht die Leistung einer CPU Kerns hoch, beobachtet mit gkrellm.
    Ein Mal war ich schnell und konnte noch eine Textkonsole aufrufen, und "top" starten.
    Dabei hat sich gezeigt, dass der Prozess, welcher einen CPU Kern voll beansprucht, "find" heißt.
    Daraus schließe ich mal, dass "find" in diesem Moment vorhandene Systemdateien löscht, bis das System unbrauchbar ist.



    Nun meine Frage an die Gemeinschaft:
    hat jemand dieses Problem auch beobachtet?
    weiß jemand, ob das mit einem Script zusammen hängt? Welches könnte das sein?
    Nachdem das Problem nicht immer auftritt:
    => könnte das vielleicht sogar mit irgend einem cron Job zusammen hängen?



    Für Hilfen und Ratschläge wäre ich sehr dankbar!



    Übrigens:
    Ubuntu und Co. habe ich mir in einer virtuellen Maschine angeschaut, es will mir einfach nicht gefallen.
    Ich würde sehr gern bei SuSE bleiben, ich habe SuSE Installationen seit 1995.

  • Was ist das für eine SSD, wie angeschlossen?


    Hast du es mal mit einem aktuellen Kernel aus kernel:stable versucht?

    Für den Inhalt des Beitrages 122596 haftet ausdrücklich der jeweilige Autor: Sauerland

  • find tut, was der Name sagt. Es findet alle möglichen Dateien und Verzeichnisse. Ein sehr mächtiges Tool. Es kann auch für jeden Fund diverse Kommandos ausführen. Natürlich auch löschen.
    Das tut es aber ganz sicher nicht einfach so. Das müsste dann jemand wirklich willentlich gemacht haben.


    Wie kommst du darauf, dass find das machen würde? Wie schließt du aus, dass ein anderer Prozess das tut?


    Wenn du wirklich glaubst, dass du dir -auf welchem Wege auch immer- ein solches find - Kommando eingefangen hast, könntest du mit dem folgenden Befehl alle Dateien anzeigen lassen, die ein find Kommando beinhalten.
    (Vorsicht: dieses Kommando kann ewig lange laufen. Je nachdem, wie groß die Platte(n) sind. Und weil das Fehlermeldungen hagelt, wird der Fehlerkanal in das Nirvana umgeleitet. Außerdem wird das Ding im Hintergrund ausgeführt und die Ausgabe nach /grep.nach.find.report umgeleitet. Kannst es also frühmorgens aufrufen und einfach durchrödeln lassen,.)


    grep -r find /* 2>/dev/null 1>/gre.nach.find.report &
    echo PID = $?
    Der echo Befehl zeigt die PID dieses greps an. Damit kannst du dann gucken, ob der noch läuft:
    ps -p <PID von echo Befehl>
    (Die Konsole offen lassen. Oder disown/nohup verwenden.)


    Aber ich glaube das nicht.
    Das wäre einfach zu billig.


    Hast du probiert, ob nach einem solchen Desaster Zugriff über eine "echte Console" möglich ist?
    Was steht in den Logs? (Mal beim Backup nicht überschreiben lassen, sondern erst lesen/wegkopieren)

  • Danke, erst Mal, für die Antwort.


    Die SSD ist von Intenso, 128 GB. Erst 2 Monate alt.
    Sie ist am ersten SATA Port des Mainboards angeschlossen.
    DAS BIOS steht auf AHCI - und "EFI only".
    Übrigens hatte ich das Problem vorher auch, bei einer Festplatte.
    Von daher suche ich das Problem nicht bei der SSD ...


    Der Kernel hier ist: 4.4.92-31 default


    Übrigens habe ich SuSE Leap 42.3 auf 2 Rechnern installiert.
    Der eine hat ein Gigabyte Mainboard GA-Z77X-UD3H - mit 32 GB RAM.
    Der andere hat ein MSI Mainboard - auch mit mit 32 GB RAM.


    Dieses Problem besteht bei beiden Rechnern.



    Das Netzwerk funktioniert bei beiden mit festen ipv4 Adressen astrein, bei Samba (cifs) und NFS.



    Wie "gesagt" - ich vermute das Problem eher in einem Script, wo eventuell der "find" Befehl


    zu viele "alte" Dateien löscht.

  • Zitat

    Der Kernel hier ist: 4.4.92-31 default

    Der ist nicht aktuell.


    Das Problem ist:
    Warum passiert das nur bei dir und dann auch noch auf 2 Rechnern?
    Bei keinem anderen.....


    Hast du da irgendwelche krummen Sachen a la bleachbit oder ähnlichem installiert und am laufen?

    Für den Inhalt des Beitrages 122599 haftet ausdrücklich der jeweilige Autor: Sauerland

  • Danke, für die zweite Antwort !


    Nun, ich bin mir natürlich nicht endgültig sicher, daß der "find" Befehl für mein Problem zuständig ist.
    Ich habe halt beobachten können, daß die Prozessorlast auf einem Kern ansteigt, wenn das Problem wieder mal auftritt.
    Und dann muß ich natürlich sehr schnell sein, denn wenn mal genug Systemdateien gelöscht wurden, kann ich nichts mehr tun.
    Aber einmal ist es mir gelungen, auf der Textkonsole "top" aufzurufen, und mir wurde ganz oben "find" angezeigt,
    mit der entsprechenden CPU Last.
    Daher kommt mein Verdacht, aber, wie "gesagt" - es bleibt natürlich ein Verdacht.
    Ich kann natürlich nicht ausschließen, daß dafür ein anderer Prozeß zuständig ist.


    Ob ich nach solch einem Desaster auf die Konsole komme, so lang das System noch halbwegs funktioniert?
    Ja, einmal ist es mir gelungen, da muß ich aber sehr schnell sein, sonst läßt der Rechner mich das auch nicht mehr machen,
    weil schon zu viele Dateien zerstört sind.
    Dann ist aber keine Zeit mehr, um verschiedene Befehle auszutesten.


    Und das eigentliche Problem ist, daß das System astrein läuft, da laufen alle Diagnosen ins Leere, weil alles stimmt.
    Und wenn ca. einmal im Monat das System zusammenbricht, dann habe ich praktisch keine Zeit für weiter führende
    Diagnosen, weil nach kurzer Zeit viele Befehle nicht mehr angenommen werden, es wird nur gemeldet, daß
    Libraries fehlen.


    Der Vorschlag mit den Log Dateien scheint mir sehr sinnvoll.
    Aber ich könnte dann nur noch mit einem Live USB Stick auf die SuSE Partition zugreifen, weil das System selber nicht mehr bootet.
    Das führt zur nächsten Frage:
    Wo finde ich dann die Logdateien?
    Früher wußte ich, wo die alle zu finden sind, aber jetzt, mit systemd - wo sind die nun ?

  • Danke, für die dritte Antwort!


    Ob ich da auf dem Rechner da irgendwelche krummen Sachen a la bleachbit oder ähnlichem installiert und am laufen habe?
    Nein ...
    Nur "bcrypt" habe ich mal selber compiliert, alles Andere wurde über YAST installiert.
    Ach ja:
    das Packman Repository habe ich auch geholt, weil ich den VLC haben wollte.
    Sonst bin ich mir keiner Schuld bewusst.
    Ob ein aktueller Kernel was bringt? Den müßte ich dann wohl auch selber compilieren?
    Eigentlich suche ich den Fehler eher bei irgend einem Script, nur welches?

  • Eigentlich suche ich den Fehler eher bei irgend einem Script, nur welches?

    Welches dann als root laufen müsste, und das auch nur bei dir..........


    Du bist auch nicht als root eingeloggt?
    Konsole öffnen, als User:
    whoami

    Für den Inhalt des Beitrages 122605 haftet ausdrücklich der jeweilige Autor: Sauerland

  • Danke, für die letzte Antwort.


    Ja, klar, das Script müsste dann mit root Rechten laufen.
    Daher mein Verdacht, daß es vielleicht durch einen cron Job abgestossen wird,
    aber es ist ja nur ein Verdacht.
    Oder ist es vielleicht ein Job, der von systemd angestossen wird ?
    Ich persönlich habe den Eindruck, daß mit init früher alles viel einfacher war ...
    Ach ja, ich möchte nach nachtragen, dass ich das System mit dem ext4 Dateisystem installiert habe.


    Die grafische XFCE Oberfläche bootet bei mir automatisch, das habe ich bei der Installation so angegeben.
    Und bei strg + alt + F7 (grafisch - X11) bin ich als Benutzer angemeldet.
    Als root melde ich mich nur auf der Textkonsole (strg + alt + F2) an, wenn ich beispielsweise nach diesem Fehler suche.


    Wenn ich der Einzige bin, der dieses Problem hat, dann fürchte ich, daß mir auch niemand einen
    Tipp geben kann ...
    Ich werde weiter suchen, aber wenn das System mal gut läuft, dann kann ich auch nichts finden.
    Der Fehler tritt immer nur direkt nach dem Booten auf:
    die grafische Oberfläche erscheint, und dann geht das Löschen los, aber, wie "gesagt",
    meistens ist alles in Ordnung, nur etwa einmal im Monat passiert das Unglück.


    Mir selber erscheint das auch sehr seltsam, ganz untypisch für Linux.
    Immerhin kenne ich Linux schon seit 1995.

  • Als root:

    Code
    systemctl list-timers

    Und wenn bitte die Ausgabe eines Befehls gefordert wird auch posten.


    Immer incl. der kompletten Eingabezeile.


    Benutze Code-Tags.

    Für den Inhalt des Beitrages 122608 haftet ausdrücklich der jeweilige Autor: Sauerland