DMTCP - Checkpoint-Restart

September 8, 2020

(DMTCP (Distributed Multi-threaded Check Pointing system הינה תוכנה נוחה לשימוש על מנת לבצע checkpoint (ביצוע גיבוי מערכת ברגע נתון) של ריצת התוכנית. התוכנה מאפשרת לבצע שמירת מצב של ריצת התוכנית ברגע כלשהו ומאפשרת למשתמש לחזור ולהמשיך את ריצת התוכנית מאותה נקודה.

 

התוכנה התווספה כמודול חדש למערכת המודולים ב-NegevHPC וכעת ניתן להשתמש בה על-ידי הרצת הפקודה הבאה:

 

module load dmtcp/v2.6

 

דוגמה להרצה של DMTCP יחד עם תוכנת LEEOR2D:


כדי להריץ מקומית צריך להריץ כך:


dmtcp_launch --allow-file-overwrite -i 10 build/gcc-9.1.0-openmpi-1.10.7-production/2d.exe

 

--allow-file-overwrite

דורס את השמירות הקודמות (יישמר רק קובץ איתחול אחד)


-i X

מציין כל כמה שניות יתבצע שמירה

 

אם במידה וצריך לבצע הרצה של התוכנית מספר פעמים על אותו קודקוד יש להוסיף את הדגל:
                                                                                                                       0 p-

לאחר X זמן יווצרו שלושה קבצים: קובץ אחד שמכיל את המידע (snapshot) של הריצה:


ושניים אחרים שאחראים על ביצוע ההרצרה החוזרת במקרה והריצה נופלת:

במידה והריצה נופלת יש להריץ את הקובץ:
                                                                                   dmtcp_restart_script.sh   
והריצה תחזור.

 

 

לעיון נוסף מצורף כעת קישורים המסבירים את התוכנה בפירוט רב יותר:

 

https://userinfo.surfsara.nl/systems/lisa/software/dmtcp

http://dmtcp.sourceforge.net/

Share on Facebook
Share on Twitter
Please reload

RECENT POST

February 3, 2019

December 18, 2018

January 22, 2018

Please reload

© NegevHPC.com | Rotem Industrial Park