分類彙整: 維修公告

20080813維修公告

今天本應該是技術組會議的時間,結果我們沒有開會,都在修機器。

起因是我們好不容易查出之前BBS大約一週當掉一次的原因是Raid的Controller不穩定,因此跟廠商拿了一個新的要來更換,更換的過程中SCSI排線又毀掉了,所以在那裡查來查去,換來換去,過了好久才找到問題所在並且修復。

在這期間我們把BBS機器上的相關服務都移到北美去,因此只影響了系統的輸入者。不管怎樣,目前已經全部修復完畢,應該會有一段穩定的時間了。

life主機RAID硬碟損毀與搶救報告

2008.1.3 一早8:00左右,技術人員tjy發現life RAID第一個硬碟壞掉,依照標準處理程序,他就拿出預先準備好的硬碟來更換,系統開始重建RAID,這時機器正常運作,僅僅RAID進行自動修復工作。

2008.1.3 10:00 發現系統當機,派遣ksf去機房查看,發現life RAID第三個硬碟也亮紅燈損毀,緊急關機再開、等冷卻(同時禱告)後再開無效。信望愛站開站十年來從來沒遇到的悲慘事件就這樣發生了。

接下來,ksf拿著硬碟去找RAID廠商 旭驥 幫忙看看能不能救回來,這時當然技術組人心惶惶,甚麼怪招都想過了:換硬碟機板、拿早上換下來的硬碟放上去救、把壞掉的硬碟資料複製出來……,不過,後來RAID廠商幫我們檢查出來原來是第三顆硬碟已經老舊,轉速無法跟上。於是借我們一個電力比較強大的新RAID機器,利用慣性原理,通電關掉,趁硬碟還在轉再通電,這樣就順利把硬碟啟動了(我省略了很多辛苦的測試過程,真的感謝RAID廠商)。於是我們決定先讓系統恢復運轉,並且提前購買預算要購買的新RAID把資料轉過去,好還人家借用的RAID。

ksf把RAID拿回來插好後開機,發現系統還是打不開,因為在硬碟損壞的同時,已經有資料毀掉了。我們判斷這不會是全面性的問題,應該只是一兩個檔案毀掉,所以就由tjy下班後慢慢一個一個檔案利用備援光碟救起來 ,經過了幾個小時還是沒辦法,看來狀況比想像中的嚴重。這時tjm回到機房來接力檢修,決定重灌系統,保留資料。

 為了要保留最多的資料,所以我們做了幾次失敗的嘗試(壞得真嚴重),最後重新灌了系統才讓系統真正復原。我們大概檢查了一下資料,發現應該沒有大礙,就先這樣啟動。但是後來發現我們忘記備份虛擬主機的資料,於是又手工加上虛擬主機的資料,讓大部分的系統運作正常。這時已經是1月4日凌晨 4:30。

1月 4日下午1:00 ksf已經拿到新的RAID,安裝在勉強能跑的life上,由tjm遙控把硬碟準備好。1月 5日早上9:00開始轉移資料,11:00轉移完成,由等在機房的tjy、ksf接手利用復原光碟來讓新的RAID可以開機。11:30順利完成這項工作,目前life系統已經完全穩定。

 由於新買的 raid也要順便更換BBS的RAID(這個RAID更老,常常出現錯誤的警報),所以我們也停止BBS機器系統運作,接上設備。我們預計週日大家比較不使用機器的時候來複製資料更換系統。預計1月6日下午前全部更換完成。

閱讀全文 life主機RAID硬碟損毀與搶救報告

UPS與tech硬碟出問題

今晨7:50,機房傳出嗶聲,我跑上去看,發現UPS又出現電池損毀燈號。因為以前也發生過類似的問題,所以我立刻將Server Shutdown ,電源轉接市電。shutdown 期間又發現 tech的硬碟有問題,無法正常停機,只好強制關機。

電源轉換完成之後,重新開機,tech硬碟/home (/dev/sda4)分割出現無法自動修復的錯誤,我只好手動修復。在手動修復的時間內,我將UPS損壞的事情通知ksf 與 tjy。並請ksf到教會前早一點來機房檢修一下(ksf是我們中間最懂UPS的人)。

我在想,tech應該要把SCSI卡拔下來擦一擦、插一插,不然最近tech的硬碟當機率有點高,等一下應該也會一起處理一下這件事情。

閱讀全文 UPS與tech硬碟出問題