機房緊急維修小抄

一、伺服器損毀:先紀錄console的信息,以作為後續維修之用。如果沒有特別的信息,以「重新開機」為優先處理方式。

二、如果重新開機還不行,請Power Off RAID與伺服器,然後再開電源重新啟動,還不行就重新連接RAID與伺服器的連接線重新啟動。

三、如果經過上述兩個手續還不能正常啟動,就看那哪一台機器損毀。如果是BBS或Life損毀,RAID運作正常,那就先進行步驟四,如果是tech損毀,RAID運作正常,跳過步驟四進入步驟五 。

四、先將tech停機,拔除損毀伺服器上SCSI連接線,把BBS 或Life的RAID重新連接到tech上重新啟動,以tech伺服器替代受損的伺服器運作。請注意一下網路線的配置與設定,必要的時候檢查一下/etc/sysconfig/network-scripts 目錄下的 ifcfg-eth0 與 ifcdf-eth1 把HWADDR 這項設定用「#」mark掉,以確保網路可以正確啟動

五、把受損的伺服器拆離機架,拔出所有的介面卡,用軟橡皮清理金手指之後插回重新啟動,還不能正常啟動就嘗試更換損壞的硬體,直到找到問題所在,修復為止。修復後,視需要把接線換回。

六、如果是RAID或檔案系統損壞,請先用Fedora開機片打入 linux rescue 進入救援模式,看系統的信息確認是否還能找回RAID上的Linux檔案系統。 如果還可以,請依指示 chroot 進去系統,執行 grub-install /dev/sda 重新安裝系統開機程式即可。

七、如果RAID或檔案系統嚴重損毀,重新安裝系統開機程式已經無法挽救,那請先直接重灌系統到可以遠端登入的狀況(應該預先留下目前每台機器的分割狀況)。如果能夠拯救整個分割區,就拯救之 ,否則請取回tech的備份硬碟中full backup的檔案(ls -al 看看檔案大小就知道哪些檔案是full backup了)。到系統根目錄底下 tar zxvf xxxx.tar.gz  直接把備份資料蓋回去,重新開機即可。

八、 進一步的資料拯救,則可以視需要檢查備份硬碟中的增量備份檔案,一個一個找回所需要的資料即可。

九、建議進行實際的復原演練,以免臨時出問題。

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料