今天下午KSF跟廠商去upgrade了BBS與LIFE這兩台機器的firmware。原本預計還要看一下event log的,無奈BBS的RAID機器比較老一點,沒有RS232的port,所以廠商建議更新RAID的座(包含power和RS 232 port)大概要四五千元……
BBS raid出問題,2006年12月18日下午進行維修
今天BBS、Bible這台機器的RAID出了問題,連續當機兩次,原因不明,造成bible.fhl.net的資料大量損毀。因此我們已經緊急由北美站把資料救回來 ,不過springbible.fhl.net的資料也造成損毀,得要由備份中取回(我正在努力中)。
我們已經聯絡廠商,預計2006年12月18日下午進行維修,屆時可能會有不定期的停機,還請大家多多包涵。
系統重開機測試
本週六(9/12/2006)晚上我們將進行 bbs與life機器的系統重開測試。
這是為了檢驗系統重開網路線是否會互換。如果一切正常,應該十分鐘之內就會復原。
另外如果可以買到新SCSI卡,我們也會利用tech進行 SCSI卡安裝測試,這時候tech將會有一段時間的不穩定。這將不會影響bbs與life的系統穩定度。tech如果運作正常之後,我們才會擇期對bbs與life進行SCSI卡更換作業。
另外,使用信望愛站服務的人可以考慮訂閱這個分類的RSS,我們會將維修公告發佈在這裡。
版本更新到1.1.3
如標題 閱讀全文 版本更新到1.1.3
新增模板一批
如標題,請各位參考使用 閱讀全文 新增模板一批
例行會議記錄
進度報告:ksf與tjm已經完成UPS線路改接,將機櫃的門關起來了。tjy處理php換到最新版。
由ksf去詢問RAID內部scsi架構,並視情況採購 LSI SCSI介面卡一張,裝在tech上測試
由ksf去詢問Hinet頻寬提昇的作法與狀況
建議將中古的UPS二手賣出,帳目問題再與基金會討論
由birdy處理系統重新開機,網卡會亂換的問題
建議:以後維修多利用blog互相溝通,以免大家看到錯誤信息會緊張。
監測伺服器的網路流量
以下介紹如何裝設 mrtg 監測 eth0 的流量
yum -y install net-snmp
vi /etc/snmp/snmpd.conf
com2sec local localhost public
com2sec mynetwork 192.168.1.0/24 public
group MyRWGroup v1 local
group MyROGroup v1 mynetwork
view all included .1.3.6.1.2.1.1 80
access MyROGroup "" any noauth 0 all none none
access MyRWGroup "" any noauth 0 all all all
syslocation Fedora Core 6
syscontact someone <someone@mail.com.tw>
chkconfig snmpd on
service snmpd start
yum -y install mrtg
mkdir /home/WWW/www/mrtg #或者其他你要產生mrtg統計檔案的地方
cfgmaker –global 'WorkDir: /home/WWW/www/mrtg' \
> –global 'Options[_]: bits,growright' \
> -global 'Language: big5' \
> –output /etc/mrtg/mrtg.cfg \
> –ifref=ip \
> 205.71.38.xxx
indexmaker –output /home/WWW/www/mrtg/index.html /etc/mrtg/mrtg.cfg
mrtg /etc/mrtg/mrtg.cfg
mrtg /etc/mrtg/mrtg.cfg
mrtg /etc/mrtg/mrtg.cfg
然後就可以去看是否產生流量統計圖表了
以上是參考自 這裡
監測伺服器的網路流量
以下介紹如何裝設 mrtg 監測 eth0 的流量
yum -y install net-snmp
vi /etc/snmp/snmpd.conf
com2sec local localhost public
com2sec mynetwork 192.168.1.0/24 public
group MyRWGroup v1 local
group MyROGroup v1 mynetwork
view all included .1.3.6.1.2.1.1 80
access MyROGroup "" any noauth 0 all none none
access MyRWGroup "" any noauth 0 all all all
syslocation Fedora Core 6
syscontact someone <someone@mail.com.tw>
chkconfig snmpd on
service snmpd start
監測伺服器的網路流量
以下介紹如何裝設 mrtg 監測 eth0 的流量
yum -y install net-snmp
vi /etc/snmp/snmpd.conf
com2sec local localhost public
com2sec mynetwork 192.168.1.0/24 public
group MyRWGroup v1 local
group MyROGroup v1 mynetwork
view all included .1.3.6.1.2.1.1 80
access MyROGroup "" any noauth 0 all none none
access MyRWGroup "" any noauth 0 all all all
syslocation Fedora Core 6
syscontact someone <someone@mail.com.tw>
自動錯誤回復
這個部份我們還不是做得很好,嚴重的錯誤還是要人跑到機房去處理,不過為了節省跑機房的時間,我們還是做了一些努力。
我們去買了一個可以用電話控制電力的裝置,當電話打進去之後,系統會詢問密碼,密碼正確以後就可以用電話按鈕選擇把四個port中的任何一個port打開或關閉。因此我們會把最容易當機的系統接在這個裝置上,透過關閉電源再打開來復原系統。我們通常都是用這招來對付ADSL的ATUR(小烏龜),說起來還蠻有效的,反正現在大家都有手機,收到系統回報網路斷線之後,就撥一撥號碼、按按幾個鍵,系統就自動恢復正常了,真是物超所值(好像才四千塊錢吧)。
信望愛站為了系統的穩定,裝了兩條網路線,還分屬於不同的ISP ,因此理論上可以做到很好的fail over功能。目前我們是透過script去控制 default route自動偵測設定的方式來做到基本的斷線備援,但是DNS的fail over部份還沒有完成,目前還是得要靠人力手工來處理,未來應該會慢慢的把這部份納入系統之中。不過這部份真的是比較困難,要寫程式的話也必須寫得比較複雜,因此短期內可能還不會完成。