欧美午夜精品一区二区三区,国产91麻豆免费观看,囯产亚洲日韩欧美看国产,亚洲国模精品一区,亚洲欧美日韩精品永久在线,亚洲国产成人精品久久久国产成人一区二区三区综合区精品久久久中文字幕一区 ,国产福利电影一区二区三区 ,欧美日韩亚洲综合一区二区三区

產品推薦

海瑞思Preciset機房空調
海瑞思Precise系列專為中小型機房設計的機房專用空調Precise...【詳細】
MPS 10-100 kVA UPS
MPS系列UPS設備確保任何類型的負載,最大限度的保護和電能質...【詳細】

聯系我們

服務熱線
010-62104284

地址:北京市密云區高嶺鎮政府辦公樓
王經理 13393261468
Q Q:514468705/1049705527
郵箱:jhcxkj@163.com

首頁 > UPS電源 > UPS不間斷電源 > 云計算數據中心的運維管理

云計算數據中心的運維管理

雙擊自動滾屏 發布者:精密空調 發布時間:2015-08-14 09:53:03 閱讀:次【字體:

現代信息中心已成為人們日常生活中不可缺少的部分,因此信息中心機房設備的運行正常與否就非常關鍵。在數據中心生命周期中,數據中心運維管理是數據中心生命周期中最后一個、也是歷時最長的一個階段。加強對云計算運維管理的要點以及相應改進方面措施的研究與探討,以此不斷提高IT運維質量,實現高效的運維管理。這就給運維是否到位提出了嚴格要求。

1 運維在機房中的地位

在數據中心生命周期中,數據中心運維管理是數據中心生命周期中最后一個、也是歷時最長的一個階段。數據中心運維管理是,為提供符合要求的信息系統服務,而對與該信息系統服務有關的數據中心各項管理對象進行系統地計劃、組織、協調與控制,是信息系統服務有關各項管理工作的總稱。數據中心運維管理主要肩負合規性、可用性、經濟性、服務性等四大目標。

在信息中心機房配備有運維人員,但大都是“全才”的,即什么都管,尤其是對供電系統大都是由主機運維的人員代管。當電源系統出故障時,此代管人員一問三不知,甚至連配電柜門都沒開過。這實際上就是把機房的運維放在了一個次要的地位。

當然也有的地方有所分工,看似重視,實際上也沒得到真正地重視。比如說機房設備長時間一直運行正常,這時如果運維人員提出要增添運維方面的測量設備,有的領導就認為多余,很難得到批準。但他不知道機房設備所以長時間一直運行正常,正是由于這些運維人員的細心維護和努力保養所獲得的。并不是這些人員每天閑著無事可干,他們的這些工作一般是領導看不見的。比如同樣多款的UPS在同樣的環境條件下,在某衛星地面站就極少出故障,而在同系統別的地方機房同一家同規格的機器就故障連連。原來是前者的運維人員每天都在細心觀察和分析機器面板LCD上顯示的數據,一旦發現異常苗頭及時采取措施;而后者只限于每天抄寫這些數據就算完成任務,使異常苗頭不斷積累,以致于導致故障。比如斷路器在額定閉合狀態發現觸點處溫度高了,就要檢查是不是電流過大到超過額定值,如果不是就要檢查觸點接觸是否牢靠,是否需要再緊固一下。這樣一來,故障隱患就排除了。如果一直不管不問久而久之就會導致跳閘而使系統崩潰。這都是一些小的動作,都是在巡查中順便做的事情。所以同是運維人員在巡查,但前者在做事而后者只是走馬觀花。這就是數據中心可靠與不可靠的區別。

運維人員就像幼兒園的保育員和老師。孩子交到幼兒園后,起主要作用的就是保育員和老師,這時保育員和老師就是主體。機器就好比是幼兒園的孩子,孩子是否健康成長,機器是否正常運行,除去本身的健康(可靠性質量)狀況外,那就是運維人員的責任了。由于云計算的要求彈性、靈活快速擴展、降低運維成本、自動化資源監控、多租戶環境等特性,除基于ITIL(IT基礎設施庫)的常規數據中心運維管理理念之外,以下運維管理方面的內容,需要我們加以重點關注。

2 云計算數據中心運維管理的要點

(1)理清云計算數據中心的運維對象

數據中心的運維管理指的是與數據中心信息服務相關的管理工作的總稱。云計算數據中心運維對象一般可分成5大類:

①機房環境基礎設施

這里主要指的是為保障數據中心所管理的設備正常運行所必需的網絡通信、供配電系統、環境系統、消防系統和安保系統等。這部分設備對于用戶來說幾乎是透明的,比如大多數用戶都不會忽略數據中心的供電和制冷。因為這類設備如果發生意外,對依托于該基礎設施的應用來說是致命的。

②數據中心所應用的各種設備

這些設備包括存儲、服務器、網絡設備和安全設備等硬件資源。這類設備在向用戶提供IT服務過程中提供了計算、存傳輸和通信等功能,是IT服務最核心的部分。

③系統與數據

這部分包括操作系統、數據庫、中間環節和應用程序等軟件資源,還有業務數據、配置文件、日志等各類數據。這類管理對象雖然不像前兩類管理對象那樣“看得見,摸得著”,但卻是IT服務的邏輯載體。

④管理工具

這部分包括基礎設施監控軟件、IT監控軟件、工作流管理平臺、報表平臺和短信平臺等。

這類管理對象是幫助管理主體更高效地管理數據中心內各種管理對象的工作情況,并在管理活動中承擔起部分管理功能的軟硬件設施。通過這些工具,可以直觀感受并考證數據中心如何管理好與其直接相關的資源,從而間接地提升了可用性與可靠性。

⑤人員管理

人員管理包括數據中心在內的技術人員、運維人員、管理人員以及提供服務的廠商人員的管理。

人員一方面作為管理的主體負責管理數據中心的運維對象,另一方面也作為管理的對象,支持IT的運行。這類對象與其他運維對象不同,具有很強的主觀能動性,其管理的好壞將直接影響到整個運維管理體系,而不僅僅是運維對象本身。

(2)定義各運維對象的運維內容

云計算數據中心資源管理所涵蓋的范圍很廣,包括環境管理、網絡管理、設備管理、軟件管理、存儲介質管理、防病毒管理、應用管理、日常操作管理、用戶密碼管理和員工管理等。這就需要對每一個管理對象的日常維護工作內容有一個明確的定義,定義操作內容、維護頻度、對應的責任人,要做到有章可循,責任人可追蹤。實現對整個系統全生命周期地追蹤管理。

(3)建立信息化的運維管理平臺系統和IT服務管理系統

云計算數據中心的運維管理應從數據中心的日常監控入手,事件管理、變更管理、應急預案管理和日常維護管理等方面全方位地進行數據中心的日常監控。實現提前發現問題、消除隱患,首先要有完整的、全方位實時有效的監控系統,并著重監控數據的記錄和技術分析。

數據中心的業務可以概括為:通過運行系統來向客戶提供服務。沒有信息系統的支撐來運行IT系統就如超市里仍然采用手工結賬一樣不能讓顧客滿意。信息化的數據中心運維管理平臺系統包括如下方面:

①機房環境基礎設施監控管理系統;

②IT系統監控管理系統;

③IT服務管理系統。

(4)定制化管理

靈活性、個性化是云服務的顯著特征,用戶對應用系統有著千差萬別的個性化需求,云服務提供商在保證共性需求的基礎上,還要滿足用戶個性化的定制需求,向用戶提供靈活和個性化配置的云服務系統。云服務提供商要提供按需變化的服務,就要有反應敏捷的人員、流程和工具,來適應業務變化的需要。云服務下的運維需要更多的靈活性和可伸縮性,可以根據客戶與合作伙伴的需要,快速調整資源、服務和基礎設施。

(5)自動化管理

IT服務根據負載變化的情況可以自動調整所需的資源,以求在及時響應和節約成本上取得平衡。同時,還考慮到計算能力和規模會越來越大,人工管理資源也會越來越復雜。這些新特性對IT管理自動化能力提出了更高的要求。企業往往希望在不失靈活性的前提下,可以得到更高程度的自動化。為此,云計算數據中心需要部署自動化管理平臺,集中管理虛擬化和云計算平臺,并提供自定義規則,以定制功能的自動化解決方案,用戶通過使用事件觸發、數據監控觸發等方式來自動化管理,不但節約了人力,同時也提高了響應速度。

(6)用戶關系管理

云計算數據中心是為多租戶提供IT服務的平臺,為了保留和吸引用戶,在運維過程中對用戶關系管理非常重要。

①服務評審:與客戶針對服務情況進行定期或不定期的溝通。每次溝通均應形成溝通記錄,以備數據中心對服務進行評價和改進。

②用戶滿意度調查:用戶滿意度調查主要包括用戶滿意度調查的設計、執行和用戶滿意度調查結果的分析和改進等4個階段。數據中心可根據用戶的特點制定不同的用戶滿意度調查方案。

③用戶抱怨管理:用戶抱怨管理規定了數據中心接收用戶提出抱怨的途徑以及抱怨的相應方式,并留下與事件管理等流程聯系的接口。應針對用戶抱怨完成分析報告,總結用戶抱怨的原因,制定相關的改進措施。為及時應對用戶的抱怨,需要有用戶抱怨的升級機制,對于嚴重的用戶抱怨,按升級的用戶投訴流程進行相應處理。

(7)安全性管理

由于提供服務的系統和數據有可能被轉移到用戶可掌控的范圍之外,云服務的數據安全、隱私保護就成為了用戶對云服務最為擔憂的方面。云服務引發的安全問題除了包括傳統網絡與信息安全問題(如系統防護、數據加密、用戶訪問控制、DoS攻擊等)問題外,還包括由集中服務模式所引發的安全問題以及云計算技術引入的安全問題。例如防虛機隔離、多租戶數據隔離、殘余數據擦除以及多SaaS(SoftwareasaService)應用統一身份認證等問題。要解決云服務引發的安全問題,云服務提供商需要提升用戶安全認知、強化服務運營管理和加強安全技術保障等。需要加強用戶對不同重要性數據遷移的認知,并在服務合同中強化用戶自身的服務帳號保密意識,這可以提升用戶對安全的認知。在服務管理方面,要嚴格設定關鍵系統的分級分權管理權限并輔之以相應規章制度,同時加強對合作供應商的資格審查與保密教育。加強安全技術保障,以充分利用網絡安全、數據加密、身份認證等技術,消除用戶對云服務使用的安全擔憂,增強用戶使用云服務的信心。

(8)流程管理

流程是數據中心運維管理質量的保證。作為客戶服務的物理載體,數據中心存在的目的就是要保證服務可以按質、按量地提供符合用戶要求的服務。為確保最終提供給用戶的服務是符合服務合同的要求,數據中心需要把現在的管理工作抽象成不同的管理流程,并把流程之間的關系、流程的角色、流程的觸發點和流程的輸入與輸出等進行詳細定義。通過這種流程的建立,一方面可以使數據中心的人員能夠對工作有一個統一的認識,更重要的是通過這些服務工作的流程化,使得整個服務提供過程可被監控和管理,以形成真正意義上的“IT”。服務數據中心建立的管理流程,除應滿足數據中心自身特點外,還應能兼顧用戶、管理者和服務商與審計機構的需求。由于每個數據中心的實際運維情況與管理目標存在差異,數據中心需要建立的流程也會有所不同。

(9)應急預案管理

應急預案是為確保發生故障事件后,盡快消除緊急事件的不良影響,恢復業務的持續運營而制定的應急處理措施。應急預案的注意事項:

①根據業務影響分析的結果及故障場景的特點編寫應急預案,以確保當緊急事件發生后可維持業務繼續運作,在重要業務流程中斷或發生故障后,在規定時間內,要及時恢復業務運作。

②應急預案除包括特定場景出現后,各部門和第三方的責任與職責外,還應評估復原可接受的總時間。

③應急預案必須經過演練,使相關責任人熟悉應急預案的內容。應急預案應是一個閉環管理系統。從預案的創建、演練、評估到修訂應是一個全過程的管理,絕不能為了應付某個演練工作,制定后就束之高閣了。而是應該在實際演練和問題發生時不斷地總結和完善。

所以,就全局而言,運維人員的地位不可忽視。只有運維管理好一個數據中心,才能充分發揮數據中心的作用,使之能更好地為云計算提供強大的支持能力。通過有效實施云計算數據中心運維管理,減少人員工作量的同時,還要提高運維人員的工作素質和效率,保障業務人員的工作效率,提高業務系統運行狀況,進而提高企業整體的管理效益,同時也提高了用戶的滿意度,才能實現云計算數據中心的價值最大化。

  3  運維人員應具備的素質

運維管理是需要人去做的,如何才能管理好一個數據中心,才能充分發揮數據中心的作用,使之能更好地為云計算提供強大的支持能力。運維人員應具備什么樣的素質才能做到這一點呢?一般說需具備以下三個方面的條件。

(1)深厚的理論基礎

運維管理知識來源于學習和不斷地研究,比如看書和培訓。有了這樣的理論基礎也就減少了對問題分析的盲目性。否則碰到問題就不知所措,無從下手。如圖1是某數據中心

供配電結構原理圖。圖中,兩臺120kVAUPS并聯后送到兩個配電柜,每個配電柜各有35個16A的微型斷路器。一天夜里1#配電柜突然有八個輸出斷路器跳閘。后來檢查結果是一個IT電源輸入短路,兩個IT電源輸入保險絲燒斷。這就提出了如下的問題:

①為什么三個電源故障導致八個斷路器跳閘?

②為什么一個電源短路導致八個斷路器跳閘?

③為什么跳閘都發生在1#配電柜,而2#配電柜沒有任何反應?

以上的幾個問題如何解釋?這里面包含了理論、經驗和對電路與器件的了解。

又如,某化工單位在定期為240kVA UPS電池放電時,由于負載太小,只好將電池組取下來用假負載放電。放電后又將電池組接回原處,合閘后機器突然爆炸起火。專家檢查后,發現電池的極性連接正確,但所有逆變器功率器件和整流器后面的所有電解電容器統統燒毀!于是專家作出了是“機器質量問題”的結論。結果代理商賠了一臺新機器。是機器本身的質量問題嗎?為什么電池放電前機器一直運行正常,而放電后就起火爆炸呢?就算是質量問題也不會在同一時間所有這些器件都達到報廢的程度!這又如何解釋?如此等等,如果不站在理論的高度上去分析,單憑經驗和直觀視覺就一頭霧水,就不能做出公允的判斷?!皺C器質量問題”的結論肯定是錯的,錯在哪里?錯在不懂UPS的結構原理。

又如,某機關數據中心購置了4臺200kVAUPS做2?(1+1)連接,如圖2所示。機器安裝后在考機期間,為了檢測在市電轉換時的輸出不間斷功能,就在轉換開關ZB1由市電1向市電2切換瞬間,分路斷路器ZB2和ZB3跳閘,兩路并聯UPS1和UPS2各壞了1臺,檢查發現都是可控硅整流器燒毀和控制電路板受損。按道理說由市電1切到市電2是一

個很普通的操作,即是UPS最普通的功能之一,為什么會出現如此情況?而且修好后不到一年又一次市電停電時,UPS轉為電池供電模式,待市電恢復后UPS的輸入電壓就不能投入了,一直是逆變器供電。為什么?為了工作再不受影響,用戶只好將其淘汰!為什么會這樣?調查得知,該機器是打著進口品牌的國產品,而且該生產者是一個國內不知名的小廠。在用戶購置該UPS的時候,國內知名的幾家UPS制造商也剛剛達到生產該容量的水平,且大都是仿制。不用說這一家也是仿制。問題是為什么的仿制就會出現如此多的問題呢?技術分析留待后面,這里只分析產品和知名廠家的不同,其不同就是仿制技術水平的差別(這可從UPS故障后兩個月才修復看出技術水平不佳)、生產平臺的差別(機內布線和控制電路板外觀粗燥)、元器件等級的差別(更換故障部件不是一次成功)、檢測手段的差別(出廠產品做市電切換是常規手段,這次故障說明產品出廠時連最常規的實驗都沒做)等。由于用戶缺乏這方面的知識,沒有向廠家提出采取相應的應對措施,才會很快又出現第二次故障。

(2)豐富的實踐經驗

理論來自學習,但必須和實踐經驗相結合。一般說經驗多數來自教訓,所謂失敗是成功之母就是這個道理。這里所說的經驗是經過反復實踐證明的,是經得住考驗的。往往好多所謂經驗并不是真正的經驗而是經歷。比如不少人認為零地電壓*負載,并能舉出一些實際例子加以證明。比如舉例者說:一次,機器系統工作異常,經查找發現零地電壓大于1V,于是就將電源的零線和地線短接,結果異常消除了。當問及是否又將零地短接線斷開時,其回答是:“既然工作正常了還斷開做什么?”首先這個經驗是不完全,只做了一半。一個完整的經驗應該是:零線和地線短接后異常消除,接著再將零地短接線斷開,如果此時系統工作又出現異常,就說明是零地電壓*系統;如果將零地短接線斷開后系統仍正常工作,就不能說明零地電壓*系統。這里的誤區是當事者聽信了傳說‘零地電壓*負載’的影響,在他的心目中已有這個印象,這次的經歷正好迎合了這種心理,所以就錯誤地認為這就是經驗。

大都有這樣的經歷:顯像管老式電視機,看的時間長了就會出現影像突然消失,一般的做法是拍打幾下電視機外殼,大都是影像出現了。有了這一次的經驗,以后只要影像沒有了就去拍打外殼??烧f是有了多次‘經驗’。難道就可以說這個電視機所以經常出現黑屏就是因為‘欠打’嗎?很明顯這是誤解??傆幸惶鞂㈦娨暀C拍打的徹底黑屏為止,或燒掉。

(3)很強的責任心

這一點尤為重要,技術好并不代表責任心強。比如某金融數據中心一位技術很好的運維工程師,開始的確是嚴格按照機房守則每兩小時抄一次UPS顯示屏上的數據,幾個月下來顯示屏上的數據總也不變,他都背熟了。從此機房就再也不去了,按照記憶每兩小時填一次表。突然一天半夜機房內市電故障停電,UPS轉為電池模式繼續為機房IT系統供電,這位工程師早晨上班后仍按習慣沒有去機房巡視,就直接將記憶中的數據填入表中,幾小時后由于電池的儲能枯竭致使UPS輸出停電,機房設備全部停止運行。可惜的是后備發電機控制屏的開機旋鈕指在“手動”位置上,本來可以避免的故障就這樣出現了,給單位造成了嚴重損失。

再者,責任心強如果制度定得不合適也會導致故障。如在前面“深厚的理論基礎”中提到的例子,這位工程師責任心是很強,做到了定時為電池放電保養,但由于制度定的不細,使得只有一個人的情況下單獨操作,結果由于誤操作而導致故障。在對待高壓(不論是直流還是交流)情況下應該是兩人在場,一個人操作一個人‘監督’。

  4  結束語

數據中心作為信息與信息系統的物理載體,目前主要用于與IT相關的主機、網絡、存儲等設備和資源的存放、管理。只有運維管理好一個數據中心,才能發揮數據中心的作用,使之能更好地為云計算提供強大的支持能力。通過有效實施云計算數據中心運維管理,降低人員工作量的同時提高運維人員工作效率,保障業務人員的工作效率,提高業務系統運行狀況,進而提高企業整體管理效益,同時提高客戶滿意度,實現云計算數據中心的價值最大化。

編輯:Harris

 

關鍵詞:ups電源參數http://lbjsjzl.com/list-3-1.html


?
在線咨詢 電話咨詢