分類彙整: hardware

2010年之機櫃冷氣維修報告

    上次我們使用工業用的冷氣做了機櫃冷氣,工作兩年半之後冷氣不堪負荷壞了。兩年半期間也發生不少次冷氣出問題的事情,我們認為問題主要在冷氣的冷卻能力太弱,所以當用了一段時間,冷卻能力衰減後,就不足以帶走機器產生的熱量,以致冷氣系統運轉不停,加速損毀。再者,我們也發現網路上有些先進針對我們的機櫃冷氣架構提出一些針貶,閱讀了整個討論串後我們也的確發現一些設計上的問題,這次趁著冷氣壞掉,就順便一併解決這些問題,當然,我們還是希望盡量節省,畢竟每一分錢都是來自奉獻者的心血。

   這次,我們採用家用的分離式變頻冷氣,冷卻能力選擇以往的1.5倍大。整個分離式室內機放到機櫃上方,使用兩個FRP機構將冷氣與熱風送入並抽出機櫃。我們也特別注意到要把冷氣由機櫃前面送入,熱風由機櫃後面抽出。這部份是利用機櫃內的空間,利用風管導流完成。機櫃中間的空隙也自己用珍珠板檔起來,整個架構如下圖:

     整個冷氣系統的大體架構是由一家很勤奮、工作細膩的冷氣廠商幫忙完成(我跟著做了兩個下午,知道他們真的很認真),尤其是排水與冷媒銅管的架設真是非常仔細,其他機櫃內部的部份就是我們自己參考網路上的建議完成。老實說我們很想乾脆買個新機櫃,因為台灣機櫃前面的部份真的太小了,要把冷空氣弄進去很不容易,不過總算是完成,省下一大筆錢。機櫃開的洞,我們也重新利用,只是用管子移動進出風的位置。

    系統完成之後我們測試了一天,整個系統安靜許多,電腦的溫度也降低到50度左右(用/usr/bin/sensors 回報),iSCSI的溫度也正常,不過風扇的速度還是高速,我們會持續修正改進整個系統,希望最後產出一個便宜又有效的機櫃冷氣系統。喔!忘了說,目前整個系統的價格僅是上一個系統的一半。

2010年之機櫃冷氣維修報告

    上次我們使用工業用的冷氣做了機櫃冷氣,工作兩年半之後冷氣不堪負荷壞了。兩年半期間也發生不少次冷氣出問題的事情,我們認為問題主要在冷氣的冷卻能力太弱,所以當用了一段時間,冷卻能力衰減後,就不足以帶走機器產生的熱量,以致冷氣系統運轉不停,加速損毀。再者,我們也發現網路上有些先進針對我們的機櫃冷氣架構提出一些針貶,閱讀了整個討論串後我們也的確發現一些設計上的問題,這次趁著冷氣壞掉,就順便一併解決這些問題,當然,我們還是希望盡量節省,畢竟每一分錢都是來自奉獻者的心血。

   這次,我們採用家用的分離式變頻冷氣,冷卻能力選擇以往的1.5倍大。整個分離式室內機放到機櫃上方,使用兩個FRP機構將冷氣與熱風送入並抽出機櫃。我們也特別注意到要把冷氣由機櫃前面送入,熱風由機櫃後面抽出。這部份是利用機櫃內的空間,利用風管導流完成。整個架構如下圖:

 

機櫃冷氣工程與光纖工程完工

經過了一個月左右的努力,我們終於把新的機器裝到新的機櫃中,也把機櫃冷氣裝設完畢,夏天來臨之後,信望愛站眾機器就可以在冷氣的呵護下繼續努力工作了。而這個機櫃冷氣初始價格比較高,但是因為採用工業用的迴轉壓縮機,而且僅僅冷卻機櫃,因此將會非常省電。不過,在旁管理的人就沒啥好處了。完成的照片如下:

機櫃與機櫃冷氣全覽

最右邊的長方形機器就是機櫃冷氣,左邊的機櫃依序放著:光纖收容箱、兩台Giga bit Switch,一台備份用的Switch(明眼人會看出接線怪怪的,因為這張照片是光纖還沒完全上線的時候照的) 、電話遙控開關、KVM、三台主機、WWW與Life共用的RAID、tech用的舊RAID與備份用硬碟。機櫃邊還可以看到我們管理用的CRT螢幕,機櫃冷氣底下的垃圾桶前有個Dlink無線網路,那是拿來偵測市電停電用的。機櫃冷氣到機櫃中間有兩條黑管子,那就是冷空氣與熱空氣的輸送管。兩個大型黑色管路中間的小管,就是光纖的管道。

以下這張是機櫃正面圖:

機櫃正面

這一張可以看見機櫃左邊的木箱,底下的箱子就放UPS電池,上面放雜物。機櫃右邊可以看見我們管理用的螢幕與鍵盤(這次也把鍵盤換新的,上一個鍵盤應該就是創站時用的鍵盤,甚至是PS2大接頭的,按鍵都接觸不良了,這個鍵盤是嘉義的弟兄捐的),其實我們多半用網路管理,很少用機房的管理設備,所以管理設備爛一點也無妨。 

最後一張是機櫃另一面

機櫃側面

這樣的配置修改造成信望愛站今年的硬體預算大增,希望真的能夠給大家更穩定的網路服務空間。 

2008年主機更換紀錄

趁著寒假期間,我們把老舊的機器更換成新的硬體,順便進行歲修。到今天應該大致上完工了,所以順便來報告一下目前的狀況與改變。

在主機系統方面,為了省電高效能的四核心CPU,我們離開了長期使用的AMD cpu,改用Intel的 Core 2 Quad Q6600 2.4G CPU。當然整個主機板也得更新為支援該CPU的板子。這次我們採用技嘉的主機板。這片主機板我們已經先買來裝設個人電腦測試過,覺得還不錯,因此就全面採用了。RAM的話就裝了雙通道 2G x 2(總共4G)。這樣的配置是希望能夠大幅提昇整體的運算性能,準備因應光纖時代的來臨,而且我們發現,每次我們都是購買當時「中上」的硬體,但是到了兩年之後,信望愛資訊中心的負載總是成長得不堪負荷。當然,未來的兩年,信望愛站並不一定會繼續這樣成長,不過「未雨綢繆」應該是一件好事。而且,說真的,幾萬人用的伺服器配備比不上我眼前的個人電腦,實在是讓人難以接受,呵呵。

 在儲存系統方面,我們將SCSI ATA的RAID 系統淘汰下來,更換成SCSI SATA的RAID系統,不過都還是維持5個硬碟並用RAID 5的架構。主要是這樣的架構比較便宜,而由ATA改成SATA的架構所提昇的性能已經足以因應未來的需求。容量方面,其實一直不是什麼大問題,隨著單顆硬碟容量的增大,我們目前已經有 1.2T 左右的總硬碟空間,但我們都只切幾百G出來用,其他的都作為預備用途。至於tech這台機器,其實僅僅是實驗用,所以我們就把以往BBS用的 SCSI ATA的RAID 系統換下來給tech用。

 在網路系統方面,我們有比較進一步的提昇,開始改用Giga bit ethernet,網路卡其本上是用主機板內建的,另外再插一片Intel的網卡。Intel的網路卡非常穩定好用,這次拆下舊的100M的板子,看那個接頭都已經鏽蝕得很嚴重了,工作起來卻還穩定得很。不過再怎麼說我們也沒膽子用太舊的網路卡,還是換換新的吧。Switch也買新的了,便宜貨,24個 giga port的switch。我們還沒錢買cisco  這類高檔的 Switch。

在其他週邊方面,我們到是盡量節省。我們拔除了所有的內接式軟碟機與光碟機,這種東西,要用的時候就會壞掉,乾脆買外接的算了。電源供應器則是因為我們大部分的東西都是外接式的,所以只要買名牌低瓦數的(300W)即可。倒是散熱風扇就必須不惜血本了,我們買了雙滾珠軸承的散熱風扇,價格也是天價,每一個都是3-400元,而且會有300元的價格是因為好貨太少,只好買次等的來頂替。上次我們一樣是買很好的風扇,到了硬體要更換的時候,已經出現奇怪的聲音了。所以這種錢世不能省的啦。

在散熱設備方面,我們打算裝機櫃用冷氣,不過這個工程還沒有完成,所以暫時不為大家報導。

順便補充一下,在系統更換的過程中,tech的檔案系統被我們不小心毀掉了,所以透過重灌並由備份中復原重新建立好了。有四核心的CPU與4G RAM,果然嚇嚇叫,重灌也不會很慢。現在機房一塌糊塗,恐怕要等到過年後冷卻設備也裝置好了才能慢慢進入軌道。那些退役的設備,已經被狂操兩年了,我看最好是不要再用了,呵呵!比較這兩年來的主機板,其實進步蠻多的,現在的好主機板,已經都看不到電解電容了。希望我們的軟體與內容也有長足的進步才好。 

硬體策略

其實,「便宜、強大、穩定」一直是我們的硬體策略,不過離開學生時代越遠,我們越瞭解「時間」也是一個很重要的成本,越懂得不要去計較那三、五百塊錢,而換得更快速的問題解決方案,以節省技術人員的時間並降低系統當機時間。

不過,因為信望愛站的技術組中有一位硬體的DIY高手,所以我們主機的組裝、維修與整理還是可以自己來,不過如果缺乏這樣的DIY高手,我們可能就會改用現成Server硬體,而不再自己拼裝了。

至於硬體的品牌,我們倒是不怎麼挑剔。除了主機要考慮散熱問題外,其他的設備多半相當穩定可靠,我們都是購買市場上熱賣的「中上」等級的產品來使用,並不追求名牌。我剛剛去看了一下舊文章發現我們好多硬體都已經用了三、四年,卻還工作正常,所以算起來這個硬體策略算是成功的。

講到硬體設備的維修,其實最討厭的就是風扇了,每每兩年一到,系統的風扇就會出現雜音、甚至停止轉動。我們裡面的DIY高手教了我們一個訣竅:在安裝新硬 體或新風扇之前,先把風扇的商標標籤取下,將軸心添加點黃油,然後這個風扇的壽命就會延長很多。我們利用歲修的時候,把信望愛南站內所有的風扇(包括 UPS的)都換新並且加黃油,目前就一切運作正常,或許兩年後我們又可以來檢驗看看風扇是否壽命延長了。

另外,由於目前的系統速度越來越快,我們也發現常常不穩定的來源居然是「線」。前一陣子我們就被SCSI的外接排線搞死了,系統三天兩頭當機,最後換了高 檔的排線,ㄟ!就穩定下來了。我想未來我們使用的各種線材,一定要用高檔貨,不然為了這點小錢,讓系統處於不穩定的狀況,實在是得不償失。

舊文章提到我們用華碩的板子來測試系統是否更為穩固,結果答案是否定的。時間一到,還是漸漸不穩定了。也許好廠商的板子會壽命會持續久一點,不過我們還是 感覺不到有很明顯的差距就是。未來,我們應該還是會買好一點的主機板,不過我們也不會期待名牌的板子可以讓我們的系統長治久安就是。現在信望愛站的主機板 是雜牌軍,因為有位曾在主機板製造廠工作的網友奉獻給我們一塊主機板,我們自己為了應急也去買了板子,所以就亂了套了。其實也無妨,反正能穩定的用就好 了。

最近為了備份,我們引進了USB 2.0的外接式硬碟,USB 2.0速度頗快,對硬體設備也成了新的挑戰。我們的USB 2.0備份外接盒壞了不少次,其間因為線路品質問題或者沒有插好也曾經造成系統不穩。雖然我們覺得USB 2.0還是目前備份的最佳選擇,不過這種剛出來的高速I/O設備還是需要多注意其穩定性的。

說起來,Intel的網路卡是我們的硬體設備中最長壽的,到現在大概五、六年了還沒壞掉,呵呵!UPS也還不錯,除了電池與電風扇更換過之外,主體倒是沒 有損壞過。對於UPS的停電偵測,我們最後採取了一個低級的解決方案:「用無線AP不接UPS測試市電是否停止供應」。其實用任何一個具有IP的設備來測 試都可以,只是我們機房正好需要無線網路,就順便使用無線AP來當UPS停電測試設備。只要寫個script,定期去測試無線AP的IP是否會通即可知道 有沒有停電。

會用這種低級的方法,是因為目前的UPS並沒有什麼統一的協定。不管用什麼解決方案都必須搭配每個不同廠牌的UPS的不同協定,實在是太過麻煩了。說起來 我們也不需要監測UPS的電容量或電壓一類的細節資訊,只需要知道何時停電,然後停電四小時之後要自動關機,四小時之內電來了就自動停止關機,這種需求根 本用不到太精細的監測數據。

另外,我們也把簡訊通報整合進系統之中,UPS斷電或者網路斷線,系統都會自動以簡訊通報技術人員。簡訊系統是個很麻煩的東西,跟UPS一樣,各家有各家的協定,還好我們只要鎖定一家,寫完了就用那家的簡訊就是。

最後,我們以往都使用多個硬碟的外接式RAID,跑RAID 5來當我們的主要儲存解決方案。可是硬碟技術的進步真的太快了,一開始我們使用SCSI硬碟的RAID,後來改用IDE硬碟的RAID(就節省了大約一半 的經費)。現在,一個IDE硬碟容量就到達 400 G,根本就超越過去整個RAID的容量。再加上目前頻寬還是整個系統中主要的瓶頸,所以我們就勇於引進兩個IDE硬碟的外接式SCSI Mirror RAID。跑RAID 1(mirror模式)來當我們的主要儲存解決方案,這樣價格立刻降為SCSI硬碟 RAID的十分之一。還用外接式,是希望我們可以快速的抽換主機接線,不用IDE介面(雖然內部硬碟用IDE硬碟)是因為我們的系統中還跑BBS,需要反 應速度快一點的解決方案。想到我們過去推動RAID專案,籌錢籌得苦哈哈,現在輕鬆就可以擁有大容量的安全儲存專案,真的是難以想像的一件事。快速的調整 硬體策略,真的是節省經費的重要關鍵。 閱讀全文 硬體策略