Adaptive Fehlerkorrektur zur Verbesserung des Systemspeichers Zuverlässigkeit, Verfügbarkeit und Wartungsfreundlichkeit (RAS)

Ein Speichersubsystem umfasst Speichervorrichtungen mit dynamisch zugewiesenem Speicherplatz zur Verbesserung der Zuverlässigkeit, Verfügbarkeit und Wartungsfreundlichkeit (RAS) im System. Eine Fehlerprüfungs- und -korrekturlogik (ECC-Logik) erkennt einen Fehler in der gesamten oder einem Abschnitt...

Full description

Saved in:
Bibliographic Details
Main Authors Chen, Wei P, Wu, Wei, Chen, Hsing-Min, Singh, Vaibhav, Holm, John G, Mandava, Sreenivas, Bains, Kuljit, Buch, Deep K, Rudoff, Andrew M, Agarwal, Rajat, Ling, Jing, Criss, Kjersten E, Yigzaw, Theodros
Format Patent
LanguageGerman
Published 15.02.2024
Subjects
Online AccessGet full text

Cover

Loading…
More Information
Summary:Ein Speichersubsystem umfasst Speichervorrichtungen mit dynamisch zugewiesenem Speicherplatz zur Verbesserung der Zuverlässigkeit, Verfügbarkeit und Wartungsfreundlichkeit (RAS) im System. Eine Fehlerprüfungs- und -korrekturlogik (ECC-Logik) erkennt einen Fehler in der gesamten oder einem Abschnitt einer Speichervorrichtung. Als Reaktion auf die Fehlererkennung kann das System dynamisch eines oder mehrere von Folgendem ausführen: Zuweisen von aktivem Speichervorrichtungsspeicherplatz zum Sparing, um ein ausgefallenes Speichersegment auszusparen; Schreiben eines Poison-Musters in eine ausgefallene Cacheline, um sie als ausgefallen zu markieren; Durchführen einer permanenten Fehlererkennung (PFD) und Anpassen einer Anwendung von ECC basierend auf der PFD-Erkennung; oder Aussparen nur eines Abschnitts einer Vorrichtung und Aktivlassen eines anderen Abschnitts, einschließlich des Anpassens von ECC basierend auf dem ausgesparten Abschnitt. Die Fehlererkennung kann auf Bits einer ECC-Vorrichtung basieren und die Fehlerkorrektur kann auf diesen Bits und zusätzlichen Bits basieren, die auf den Datenvorrichtungen gespeichert sind. A memory subsystem includes memory devices with space dynamically allocated for improvement of reliability, availability, and serviceability (RAS) in the system. Error checking and correction (ECC) logic detects an error in all or a portion of a memory device. In response to error detection, the system can dynamically perform one or more of: allocate active memory device space for sparing to spare a failed memory segment; write a poison pattern into a failed cacheline to mark it as failed; perform permanent fault detection (PFD) and adjust application of ECC based on PFD detection; or, spare only a portion of a device and leave another portion active, including adjusting ECC based on the spared portion. The error detection can be based on bits of an ECC device, and error correction based on those bits and additional bits stored on the data devices.
Bibliography:Application Number: DE20201107776T