רשת פייסבוק קרסה למשך שעות; מה הסיבה לתקלה?

תקלה בבדיקה האוטומטית של זכרונות בפייסבוק הכניסה את האתר ל'לופ' של ניסיונות עצמיים לתקן את השיבושים ■ מנהלי האתר נאלצו "לכבות" את המערכת לחלוטין

במשך יותר משעתיים וחצי כוללות אתמול (ה'), נצח במושגי פייסבוק, לא ניתן היה להיכנס לאתר הרשת החברתית הפופולרית ביותר בעולם. חוץ מהאתר עצמו, שלא נפתח, גם כפתורי ה"לייק" החיצוניים שמופיעים במאות אלפי אתרים בעולם הפסיקו לעבוד.

באתר חברים מעל חצי מיליארד אנשים, ובאופן טבעי זרמו אתמול להנהלת פייסבוק מיליוני תלונות על השיבושים השונים.

מנהל הנדסת התוכנה של פייסבוק, רוברט ג'ונסון, פירסם אמש דו"ח "נתיחה שלאחר המוות" והסביר מה למעשה גרם לאתר ליפול. לפי הפוסט שפרסם ג'ונסון, הבעיה נבעה ממערכת אוטומטית שאנשי פייסבוק בנו, כדי לבדוק ערכי תצורה בלתי תקינים בזיכרון של האתר. למרבה הצער, הבדיקה האוטומטית כשלה - עד לנקודה שבה מנהלי האתר נאלצו ממש לכבות את פייסבוק לחלוטין עד ל"החלמה".

"היום עשינו שינוי בערכי התצורה שהתפרשו כלא תקינים", כתב ג'ונסון. "זה אומר שכל לקוח ולקוח ראה את הערך הלא תקין וניסה לתקן אותו. מפני שהתיקון כולל חקירת נתונים רבים, הנתונים הללו 'הותקפו' במהירות בידי מאות ואלפי 'חקירות' בשנייה".

"ואם זה לא מספיק", הוא הוסיף, "בכל פעם שלקוח קיבל הודעת שגיאה בניסיון לחקור את הנתונים, האתר פירש את זה כערך לא תקין ומחק את מפתח הזיכרון המתאים. המשמעות היא שאפילו לאחר שהבעיה המקורית נפתרה, זרם החקירות נמשך. כל עוד מאגרי המידע נכשלו בחלק מהבקשות, הם גרמו לאפילו עוד יותר בקשות. נכנסו ללופ-פידבק שלא נתן למאגרי המידע להחלים".

"הדרך לעצור את מחזור הפידבק היה כואבת למדי - נאלצנו לעצור את כל התנועה למאגרי המידע, כלומר - לכבות את האתר. כשמאגרי המידע שוחזרו והסיבה לתקלה תוקנה, לאט-לאט הרשנו לעוד אנשים לשוב לאתר", כתב ג'ונסון.