20080813維修公告
tjm | 13 七月, 2008, 23:00 | 維修公告 | (596 Reads)

今天本應該是技術組會議的時間,結果我們沒有開會,都在修機器。

起因是我們好不容易查出之前BBS大約一週當掉一次的原因是Raid的Controller不穩定,因此跟廠商拿了一個新的要來更換,更換的過程中SCSI排線又毀掉了,所以在那裡查來查去,換來換去,過了好久才找到問題所在並且修復。

在這期間我們把BBS機器上的相關服務都移到北美去,因此只影響了系統的輸入者。不管怎樣,目前已經全部修復完畢,應該會有一段穩定的時間了。

Trackback URL: http://blog.fhl.net/trackback.php?id=196

life主機RAID硬碟損毀與搶救報告
tjm | 05 元月, 2008, 12:02 | 維修公告 | (669 Reads)

2008.1.3 一早8:00左右,技術人員tjy發現life RAID第一個硬碟壞掉,依照標準處理程序,他就拿出預先準備好的硬碟來更換,系統開始重建RAID,這時機器正常運作,僅僅RAID進行自動修復工作。

2008.1.3 10:00 發現系統當機,派遣ksf去機房查看,發現life RAID第三個硬碟也亮紅燈損毀,緊急關機再開、等冷卻(同時禱告)後再開無效。信望愛站開站十年來從來沒遇到的悲慘事件就這樣發生了。

接下來,ksf拿著硬碟去找RAID廠商 旭驥 幫忙看看能不能救回來,這時當然技術組人心惶惶,甚麼怪招都想過了:換硬碟機板、拿早上換下來的硬碟放上去救、把壞掉的硬碟資料複製出來......,不過,後來RAID廠商幫我們檢查出來原來是第三顆硬碟已經老舊,轉速無法跟上。於是借我們一個電力比較強大的新RAID機器,利用慣性原理,通電關掉,趁硬碟還在轉再通電,這樣就順利把硬碟啟動了(我省略了很多辛苦的測試過程,真的感謝RAID廠商)。於是我們決定先讓系統恢復運轉,並且提前購買預算要購買的新RAID把資料轉過去,好還人家借用的RAID。

ksf把RAID拿回來插好後開機,發現系統還是打不開,因為在硬碟損壞的同時,已經有資料毀掉了。我們判斷這不會是全面性的問題,應該只是一兩個檔案毀掉,所以就由tjy下班後慢慢一個一個檔案利用備援光碟救起來 ,經過了幾個小時還是沒辦法,看來狀況比想像中的嚴重。這時tjm回到機房來接力檢修,決定重灌系統,保留資料。

 為了要保留最多的資料,所以我們做了幾次失敗的嘗試(壞得真嚴重),最後重新灌了系統才讓系統真正復原。我們大概檢查了一下資料,發現應該沒有大礙,就先這樣啟動。但是後來發現我們忘記備份虛擬主機的資料,於是又手工加上虛擬主機的資料,讓大部分的系統運作正常。這時已經是1月4日凌晨 4:30。

1月 4日下午1:00 ksf已經拿到新的RAID,安裝在勉強能跑的life上,由tjm遙控把硬碟準備好。1月 5日早上9:00開始轉移資料,11:00轉移完成,由等在機房的tjy、ksf接手利用復原光碟來讓新的RAID可以開機。11:30順利完成這項工作,目前life系統已經完全穩定。

 由於新買的 raid也要順便更換BBS的RAID(這個RAID更老,常常出現錯誤的警報),所以我們也停止BBS機器系統運作,接上設備。我們預計週日大家比較不使用機器的時候來複製資料更換系統。預計1月6日下午前全部更換完成。

Trackback URL: http://blog.fhl.net/trackback.php?id=156

今天更換新kernel
tjy | 15 十一月, 2007, 19:40 | 維修公告 | (621 Reads)
2.6.23.1-21.fc7
Trackback URL: http://blog.fhl.net/trackback.php?id=142

UPS與tech硬碟出問題
tjm | 23 九月, 2007, 08:38 | 維修公告 | (727 Reads)

今晨7:50,機房傳出嗶聲,我跑上去看,發現UPS又出現電池損毀燈號。因為以前也發生過類似的問題,所以我立刻將Server Shutdown ,電源轉接市電。shutdown 期間又發現 tech的硬碟有問題,無法正常停機,只好強制關機。

電源轉換完成之後,重新開機,tech硬碟/home (/dev/sda4)分割出現無法自動修復的錯誤,我只好手動修復。在手動修復的時間內,我將UPS損壞的事情通知ksf 與 tjy。並請ksf到教會前早一點來機房檢修一下(ksf是我們中間最懂UPS的人)。

我在想,tech應該要把SCSI卡拔下來擦一擦、插一插,不然最近tech的硬碟當機率有點高,等一下應該也會一起處理一下這件事情。

Trackback URL: http://blog.fhl.net/trackback.php?id=127

life硬碟有問題
tjy | 04 六月, 2007, 09:03 | 維修公告 | (843 Reads)
昨天更新kernel,reboot後死掉一顆硬碟ch3。更換一顆之後rebuild還沒完(16.5%),又死掉另一顆硬碟ch5。我到機房之後,關電、禱告再開兩次,另一顆硬碟ch5就正常。不過目前心靈小憩的留言版不會動,不知道是不是新的kernel的關係。tjm正在處理中。
Trackback URL: http://blog.fhl.net/trackback.php?id=106

更新php
tjy | 09 五月, 2007, 08:21 | 維修公告 | (963 Reads)

昨天晚上更新php到最新版。

 

今天早上東森線路我連不上,雖然沒有收到簡訊,還是遠端開關小烏龜,之後可以連上。

後來看流量,並沒有斷線的狀況。再觀察看看,可能是碰到瞬間斷線。 

Trackback URL: http://blog.fhl.net/trackback.php?id=103

bbs raid有顆硬碟掛了
tjy | 04 五月, 2007, 18:02 | 維修公告 | (895 Reads)

今天下午更換新的kernel 到機房reboot

發現bbs的raid硬碟有一顆(第一顆)掛掉,雖然有閃燈,但是右邊上面的指示燈是熄滅的。

目前更換硬碟 ,raid自行rebuild中

Trackback URL: http://blog.fhl.net/trackback.php?id=101

備份硬碟問題
tjy | 26 四月, 2007, 21:54 | 維修公告 | (1103 Reads)

這星期備份有問題,我想應該是備份硬碟的usb介面有問題

 fsck 過了  重裝重mount過了  還是有問題

 

可能要換東西 再試試看 

Trackback URL: http://blog.fhl.net/trackback.php?id=99

bbs更新kernel還是有問題
tjy | 27 三月, 2007, 19:52 | 維修公告 | (945 Reads)

昨晚compile完畢,今天下午又重新開機一次。還是停在上回停下來的地方沒再往下boot。

可能設定檔需要更動。

 

另外昨天重新開機之後,life的紅燈已滅。 

Trackback URL: http://blog.fhl.net/trackback.php?id=92

更新kernel
tjy | 26 三月, 2007, 17:57 | 維修公告 | (885 Reads)

剛剛把life tech都reboot了

 

bbs要reboot前發現好像昨天compile的有問題,我回家再試試看。 

Trackback URL: http://blog.fhl.net/trackback.php?id=91

更新kernel
tjy | 12 三月, 2007, 19:59 | 維修公告 | (896 Reads)

今天早上與下午更新kernel

短暫停機 十分鐘吧。

Trackback URL: http://blog.fhl.net/trackback.php?id=84

UPS電池已經更換
tjm | 18 二月, 2007, 14:06 | 維修公告 | (923 Reads)

大年初一,我和ksf到機房來換電池,兩個人搬得要死要活(電池好重),終於搞定。

目前UPS已經上線,短期內應該沒問題了。 

Trackback URL: http://blog.fhl.net/trackback.php?id=78

UPS應該要換電池啦
tjy | 14 二月, 2007, 20:13 | 維修公告 | (919 Reads)

今天下午又嗶嗶叫,顯示電池有問題。

目前吃市電 ,預計星期五或是星期六換電池。

Trackback URL: http://blog.fhl.net/trackback.php?id=77

tech上架
tjy | 13 二月, 2007, 19:47 | 維修公告 | (768 Reads)
ksf研判tech的故障燈號來自於不轉的電風扇,已經維修完畢,中午上架了。
Trackback URL: http://blog.fhl.net/trackback.php?id=76

UPS已裝回
tjy | 12 二月, 2007, 20:13 | 維修公告 | (771 Reads)

UPS廠商測試了五天,正常。目前推測為電池問題,這批電池是2003年二月出廠,四年了。

另外廠商認為電池容量對這台UPS來說大了一些。

 

tech的 mirro smart還是有問題,ksf把它帶回家看。

Trackback URL: http://blog.fhl.net/trackback.php?id=75