月份彙整: 2007 年 9 月

UPS與tech硬碟出問題

今晨7:50,機房傳出嗶聲,我跑上去看,發現UPS又出現電池損毀燈號。因為以前也發生過類似的問題,所以我立刻將Server Shutdown ,電源轉接市電。shutdown 期間又發現 tech的硬碟有問題,無法正常停機,只好強制關機。

電源轉換完成之後,重新開機,tech硬碟/home (/dev/sda4)分割出現無法自動修復的錯誤,我只好手動修復。在手動修復的時間內,我將UPS損壞的事情通知ksf 與 tjy。並請ksf到教會前早一點來機房檢修一下(ksf是我們中間最懂UPS的人)。

我在想,tech應該要把SCSI卡拔下來擦一擦、插一插,不然最近tech的硬碟當機率有點高,等一下應該也會一起處理一下這件事情。

閱讀全文 UPS與tech硬碟出問題

機房緊急維修小抄

一、伺服器損毀:先紀錄console的信息,以作為後續維修之用。如果沒有特別的信息,以「重新開機」為優先處理方式。

二、如果重新開機還不行,請Power Off RAID與伺服器,然後再開電源重新啟動,還不行就重新連接RAID與伺服器的連接線重新啟動。

三、如果經過上述兩個手續還不能正常啟動,就看那哪一台機器損毀。如果是BBS或Life損毀,RAID運作正常,那就先進行步驟四,如果是tech損毀,RAID運作正常,跳過步驟四進入步驟五 。

四、先將tech停機,拔除損毀伺服器上SCSI連接線,把BBS 或Life的RAID重新連接到tech上重新啟動,以tech伺服器替代受損的伺服器運作。請注意一下網路線的配置與設定,必要的時候檢查一下/etc/sysconfig/network-scripts 目錄下的 ifcfg-eth0 與 ifcdf-eth1 把HWADDR 這項設定用「#」mark掉,以確保網路可以正確啟動

五、把受損的伺服器拆離機架,拔出所有的介面卡,用軟橡皮清理金手指之後插回重新啟動,還不能正常啟動就嘗試更換損壞的硬體,直到找到問題所在,修復為止。修復後,視需要把接線換回。

六、如果是RAID或檔案系統損壞,請先用Fedora開機片打入 linux rescue 進入救援模式,看系統的信息確認是否還能找回RAID上的Linux檔案系統。 如果還可以,請依指示 chroot 進去系統,執行 grub-install /dev/sda 重新安裝系統開機程式即可。

七、如果RAID或檔案系統嚴重損毀,重新安裝系統開機程式已經無法挽救,那請先直接重灌系統到可以遠端登入的狀況(應該預先留下目前每台機器的分割狀況)。如果能夠拯救整個分割區,就拯救之 ,否則請取回tech的備份硬碟中full backup的檔案(ls -al 看看檔案大小就知道哪些檔案是full backup了)。到系統根目錄底下 tar zxvf xxxx.tar.gz  直接把備份資料蓋回去,重新開機即可。

八、 進一步的資料拯救,則可以視需要檢查備份硬碟中的增量備份檔案,一個一個找回所需要的資料即可。

九、建議進行實際的復原演練,以免臨時出問題。

閱讀全文 機房緊急維修小抄