BBS raid出問題,2006年12月18日下午進行維修

今天BBS、Bible這台機器的RAID出了問題,連續當機兩次,原因不明,造成bible.fhl.net的資料大量損毀。因此我們已經緊急由北美站把資料救回來 ,不過springbible.fhl.net的資料也造成損毀,得要由備份中取回(我正在努力中)。

我們已經聯絡廠商,預計2006年12月18日下午進行維修,屆時可能會有不定期的停機,還請大家多多包涵。 

閱讀全文 BBS raid出問題,2006年12月18日下午進行維修

系統重開機測試

本週六(9/12/2006)晚上我們將進行 bbs與life機器的系統重開測試。

這是為了檢驗系統重開網路線是否會互換。如果一切正常,應該十分鐘之內就會復原。

另外如果可以買到新SCSI卡,我們也會利用tech進行 SCSI卡安裝測試,這時候tech將會有一段時間的不穩定。這將不會影響bbs與life的系統穩定度。tech如果運作正常之後,我們才會擇期對bbs與life進行SCSI卡更換作業。

另外,使用信望愛站服務的人可以考慮訂閱這個分類的RSS,我們會將維修公告發佈在這裡。 

閱讀全文 系統重開機測試

例行會議記錄

進度報告:ksf與tjm已經完成UPS線路改接,將機櫃的門關起來了。tjy處理php換到最新版。 

由ksf去詢問RAID內部scsi架構,並視情況採購 LSI SCSI介面卡一張,裝在tech上測試

由ksf去詢問Hinet頻寬提昇的作法與狀況

建議將中古的UPS二手賣出,帳目問題再與基金會討論

由birdy處理系統重新開機,網卡會亂換的問題

建議:以後維修多利用blog互相溝通,以免大家看到錯誤信息會緊張。

閱讀全文 例行會議記錄

監測伺服器的網路流量

以下介紹如何裝設 mrtg 監測 eth0 的流量

yum -y install net-snmp

vi /etc/snmp/snmpd.conf

com2sec local localhost public
com2sec mynetwork 192.168.1.0/24 public
group MyRWGroup v1 local
group MyROGroup v1 mynetwork
view all included .1.3.6.1.2.1.1 80
access MyROGroup "" any noauth 0 all none none
access MyRWGroup "" any noauth 0 all all all
syslocation Fedora Core 6

syscontact someone <someone@mail.com.tw>

chkconfig snmpd on

 service snmpd start

yum -y install mrtg

mkdir /home/WWW/www/mrtg #或者其他你要產生mrtg統計檔案的地方

 cfgmaker –global 'WorkDir: /home/WWW/www/mrtg' \
> –global 'Options[_]: bits,growright' \
> -global 'Language: big5' \
> –output /etc/mrtg/mrtg.cfg \
> –ifref=ip \
> 205.71.38.xxx

indexmaker –output /home/WWW/www/mrtg/index.html /etc/mrtg/mrtg.cfg

 mrtg /etc/mrtg/mrtg.cfg

mrtg /etc/mrtg/mrtg.cfg

mrtg /etc/mrtg/mrtg.cfg

然後就可以去看是否產生流量統計圖表了 

 以上是參考自 這裡

閱讀全文 監測伺服器的網路流量

監測伺服器的網路流量

以下介紹如何裝設 mrtg 監測 eth0 的流量

yum -y install net-snmp

vi /etc/snmp/snmpd.conf

com2sec local localhost public
com2sec mynetwork 192.168.1.0/24 public
group MyRWGroup v1 local
group MyROGroup v1 mynetwork
view all included .1.3.6.1.2.1.1 80
access MyROGroup "" any noauth 0 all none none
access MyRWGroup "" any noauth 0 all all all
syslocation Fedora Core 6

syscontact someone <someone@mail.com.tw>

chkconfig snmpd on

 service snmpd start

 

 

閱讀全文 監測伺服器的網路流量

監測伺服器的網路流量

以下介紹如何裝設 mrtg 監測 eth0 的流量

yum -y install net-snmp

vi /etc/snmp/snmpd.conf

com2sec local localhost public
com2sec mynetwork 192.168.1.0/24 public
group MyRWGroup v1 local
group MyROGroup v1 mynetwork
view all included .1.3.6.1.2.1.1 80
access MyROGroup "" any noauth 0 all none none
access MyRWGroup "" any noauth 0 all all all
syslocation Fedora Core 6

syscontact someone <someone@mail.com.tw>

 

閱讀全文 監測伺服器的網路流量

自動錯誤回復

這個部份我們還不是做得很好,嚴重的錯誤還是要人跑到機房去處理,不過為了節省跑機房的時間,我們還是做了一些努力。

我們去買了一個可以用電話控制電力的裝置,當電話打進去之後,系統會詢問密碼,密碼正確以後就可以用電話按鈕選擇把四個port中的任何一個port打開或關閉。因此我們會把最容易當機的系統接在這個裝置上,透過關閉電源再打開來復原系統。我們通常都是用這招來對付ADSL的ATUR(小烏龜),說起來還蠻有效的,反正現在大家都有手機,收到系統回報網路斷線之後,就撥一撥號碼、按按幾個鍵,系統就自動恢復正常了,真是物超所值(好像才四千塊錢吧)。

 信望愛站為了系統的穩定,裝了兩條網路線,還分屬於不同的ISP ,因此理論上可以做到很好的fail over功能。目前我們是透過script去控制 default route自動偵測設定的方式來做到基本的斷線備援,但是DNS的fail over部份還沒有完成,目前還是得要靠人力手工來處理,未來應該會慢慢的把這部份納入系統之中。不過這部份真的是比較困難,要寫程式的話也必須寫得比較複雜,因此短期內可能還不會完成。

閱讀全文 自動錯誤回復