life主機RAID硬碟損毀與搶救報告

2008.1.3 一早8:00左右,技術人員tjy發現life RAID第一個硬碟壞掉,依照標準處理程序,他就拿出預先準備好的硬碟來更換,系統開始重建RAID,這時機器正常運作,僅僅RAID進行自動修復工作。

2008.1.3 10:00 發現系統當機,派遣ksf去機房查看,發現life RAID第三個硬碟也亮紅燈損毀,緊急關機再開、等冷卻(同時禱告)後再開無效。信望愛站開站十年來從來沒遇到的悲慘事件就這樣發生了。

接下來,ksf拿著硬碟去找RAID廠商 旭驥 幫忙看看能不能救回來,這時當然技術組人心惶惶,甚麼怪招都想過了:換硬碟機板、拿早上換下來的硬碟放上去救、把壞掉的硬碟資料複製出來……,不過,後來RAID廠商幫我們檢查出來原來是第三顆硬碟已經老舊,轉速無法跟上。於是借我們一個電力比較強大的新RAID機器,利用慣性原理,通電關掉,趁硬碟還在轉再通電,這樣就順利把硬碟啟動了(我省略了很多辛苦的測試過程,真的感謝RAID廠商)。於是我們決定先讓系統恢復運轉,並且提前購買預算要購買的新RAID把資料轉過去,好還人家借用的RAID。

ksf把RAID拿回來插好後開機,發現系統還是打不開,因為在硬碟損壞的同時,已經有資料毀掉了。我們判斷這不會是全面性的問題,應該只是一兩個檔案毀掉,所以就由tjy下班後慢慢一個一個檔案利用備援光碟救起來 ,經過了幾個小時還是沒辦法,看來狀況比想像中的嚴重。這時tjm回到機房來接力檢修,決定重灌系統,保留資料。

 為了要保留最多的資料,所以我們做了幾次失敗的嘗試(壞得真嚴重),最後重新灌了系統才讓系統真正復原。我們大概檢查了一下資料,發現應該沒有大礙,就先這樣啟動。但是後來發現我們忘記備份虛擬主機的資料,於是又手工加上虛擬主機的資料,讓大部分的系統運作正常。這時已經是1月4日凌晨 4:30。

1月 4日下午1:00 ksf已經拿到新的RAID,安裝在勉強能跑的life上,由tjm遙控把硬碟準備好。1月 5日早上9:00開始轉移資料,11:00轉移完成,由等在機房的tjy、ksf接手利用復原光碟來讓新的RAID可以開機。11:30順利完成這項工作,目前life系統已經完全穩定。

 由於新買的 raid也要順便更換BBS的RAID(這個RAID更老,常常出現錯誤的警報),所以我們也停止BBS機器系統運作,接上設備。我們預計週日大家比較不使用機器的時候來複製資料更換系統。預計1月6日下午前全部更換完成。

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料