DMTCP - Checkpoint-Restart
(DMTCP (Distributed Multi-threaded Check Pointing system הינה תוכנה נוחה לשימוש על מנת לבצע checkpoint (ביצוע גיבוי מערכת ברגע נתון) של ריצת התוכנית. התוכנה מאפשרת לבצע שמירת מצב של ריצת התוכנית ברגע כלשהו ומאפשרת למשתמש לחזור ולהמשיך את ריצת התוכנית מאותה נקודה.
התוכנה התווספה כמודול חדש למערכת המודולים ב-NegevHPC וכעת ניתן להשתמש בה על-ידי הרצת הפקודה הבאה:
module load dmtcp/v2.6
דוגמה להרצה של DMTCP יחד עם תוכנת LEEOR2D:
כדי להריץ מקומית צריך להריץ כך:
dmtcp_launch --allow-file-overwrite -i 10 build/gcc-9.1.0-openmpi-1.10.7-production/2d.exe
--allow-file-overwrite
דורס את השמירות הקודמות (יישמר רק קובץ איתחול אחד)
-i X
מציין כל כמה שניות יתבצע שמירה
אם במידה וצריך לבצע הרצה של התוכנית מספר פעמים על אותו קודקוד יש להוסיף את הדגל: 0 p- לאחר X זמן יווצרו שלושה קבצים: קובץ אחד שמכיל את המידע (snapshot) של הריצה:
ושניים אחרים שאחראים על ביצוע ההרצרה החוזרת במקרה והריצה נופלת:
במידה והריצה נופלת יש להריץ את הקובץ: dmtcp_restart_script.sh והריצה תחזור.
לעיון נוסף מצורף כעת קישורים המסבירים את התוכנה בפירוט רב יותר:
https://userinfo.surfsara.nl/systems/lisa/software/dmtcp
http://dmtcp.sourceforge.net/