圖解常用的雲運維監控工具

隨著雲計算和網際網路的高速發展,大量應用需要橫跨不同網絡終端,並廣泛接入第三方服務(如支付、登錄、導航等),IT系統架構越來越複雜。快速疊代的產品需求和良好的用戶體驗,需要IT運維管理者時刻保障核心業務穩定可用,而企業運維中的痛點和難點也急需解決。

1、面向業務的運維,不但關心單點IT資源的運行狀態,更關心整個業務系統的健康狀態

2、如果企業使用了大量的API和模塊化應用,那麼關注每個接口的性能變化情況和指標

3、對於運維主管及企業管理層來說,特別需要上牆的監控大屏

4、運維需要每周、每月查看報告趨勢分析,但傳統運維工具數據導出困難

5、需要第一時間轉雀和快速發現故障節點,減少業務中斷帶來的損失

目前流行的開源運維工具如Zabbix、Nagios等大部分來自國外,雖然這些開源產品功能非常強大,但對技術要求很高,而且缺少足夠的中文文檔和本土服務支持,一般運維人員要想用好難度很大。

  於是就有國內IT廠商小米、TalkingData對其自主開發的運維系統進行了開源,同時作為商用監控服務商代表的雲智慧,也對其監控寶產品進行逐步開源,讓運維、開發人員在獲得便捷部署和易用性的同時,可根據自己的業務需求進行靈活的二次開發。

雲智慧對業內主流的開源運維監控系統和商業運維監控系統進行對比,分析各種產品的定位、目標用戶和功能特點,希望幫助廣大運維、開發和創業者找到最適合自己的運維工具。

方法/步驟

Zabbix

Zabbix是一個基於WEB界面的提供分布式系統監控以及網絡監控功能的企業級開源運維平台,也是目前國內網際網路用戶中使用最廣的監控軟體,雲智慧遇到的85%以上用戶在使用Zabbix做監控解決方案。

入門容易、上手簡單、功能強大並且開源免費是雲智慧對Zabbix的最直觀評價。Zabbix易於管理和配置,能生成比較漂亮的數據圖,其自動發現功能大大減輕日常管理的工作量,豐富的數據採集方式和API接口可以讓用戶靈活進行數據採集,而分布式系統架構可以支持監控更多的設備。理論上,通過Zabbix提供的插件式架構,可以滿足企業的任何需求。

  用戶群:85%以上的泛網際網路企業。

  優點:

  1. 支持多平台的企業級分布式開源監控軟體;

  2. 安裝部署簡單、管理方便;

  3. 功能強大,監控靈活,可實現複雜多條件告警;

  4. 多種數據採集插件,靈活集成;

  5. 自帶畫圖功能,得到的數據可以繪成圖形;

  6. 同時支持調用腳本,很方便;

  7. 提供多種API接口,定製化最高的監控軟體;

  8. 出現問題時可自動遠程執行命令(需對agent設置執行權限);

  缺點:

  1. 項目批量修改不方便;

  2. 社區雖然成熟,但是中文資料相對較少,服務支持有限;

  3. 入門容易,能實現基礎的監控,但是深層次需求需要非常熟悉Zabbix並進行大量的二次定製開發,難度較大;

  4. 系統級別報警設置相對比較多,如果不篩選的話報警郵件會很多;並且自定義的項目報警需要自己設置,過程比較繁瑣;

  5. 缺少數據匯總功能,如無法查看一組伺服器平均值,需進行二次開發;

  6. 數據報表需要特殊二次開發定義;

Nagios

Nagios原名NetSaint,是一款開源的企業級監控系統,於1999年推出,由Ethan Galstad開發並維護至今。Nagios能夠實現對系統CPU、磁碟、網絡等方面參數的基本系統監控,而且還能監控包括SMTP,POP3,HTTP,NNTP等各種基本的服務類型。另外通過安裝插件和編寫監控腳本,用戶可以實現應用監控,並針對大量的監控主機和多個對象部署層次化監控架構。

 Nagios最大的特點是其開發者將Nagios設計成監控的管理中心,儘管其功能是監控服務和主機的,但是他自身並不包括這部分功能代碼,所有的監控、告警功能都是由相關插件完成的。

  用戶群:全球超過100萬用戶。許多跨國企業和組織都在使用(西門子、飛利浦、雅虎、索尼、AOL等),尤為適合複雜IT環境的企業。

  優點:

  1. 自動化運維,出錯的伺服器、應用和設備會自動重啟;

  2. 配置靈活,監控項目很多,可以自定義shell腳本,通過分布式監控模式,非常適合大型網絡;

  3. 自動日誌滾動;

  4. 支持以冗餘方式進行主機監控;

  5. 在服務事件和主機事件之間良好的相關性;

  6. 命令重新加載配置文件無需打擾Nagios的運行;

  7. 報警設置多樣性;

  缺點:

  1. 很弱的事件控制台;

  2. 對性能、流量等指標的處理不給力;

  3. 看不到歷史數據,只能看到報警事件,很難追查故障原因;

  4. 配置複雜,初學者投入的時間、精力比較大;

  5. 插件的易用性不好;

Ganglia

Ganglia是加州大學伯克利分校發起的一個開源集群監控項目,設計之初是用於監控數以千計的網絡節點。Ganglia是一個跨平台可擴展的,高性能計算系統下的分布式監控系統。它已被廣泛移植到各種作業系統和處理器架構上,目前世界各地成千上萬的集群中應用。

用戶群:適用於伺服器集群用戶。

  優點:

  1. 適合監控系統性能,通過曲線很容易見到每個節點的工作狀態,對合理調整、分配系統資源,提高系統整體性能起到重要作用;

  2. 支持瀏覽器方式訪問,但不能監控節點硬體技術指標;

  3. 適合大型集群環境;

  4. 部署方便,不用逐台機器添加配置;

  5. 一台伺服器能夠通過不同的分層管理上萬台機器;

  6. 可以自定義監控項,監控展示有表格和圖像兩種,支持手機版。

  缺點:

  1. 沒有內置的消息通知系統;

  2. 沒有報警機制,出現問題不能夠及時報警;

Zenoss

Zenoss Core是Zenoss的開源版本,其商用版本為Zenoss Enterprise。作為企業級智能監控軟體,Zenoss Core允許IT管理員依靠單一的WEB控制台來監控網絡架構的狀態和健康度。Zenoss Core的強大能力來自於深入的列表與配置管理資料庫,以發現和管理公司IT環境的各類資產(包括伺服器、網絡、和其他結構設備)。Zenoss同時提供與CMDB關聯的事件和錯誤管理系統,以協助提高各類事件和提醒的管理效率。

Zenoss做到了開源和商業化的較好結合,既吸收開源軟體的優點,同時又通過商業化運作來保證提供可靠的後續軟體服務。

  優點:

  1. Zenoss比較出色的地方在於它的Dashboard,可以配置很多portlet(即widget)。

  2. 每個用戶的界面都是分開管理的,自定義dashboard不會影響其他用戶。

  3. 強大監控功能(伺服器、路由交換、防火牆、存儲、資料庫、中間件)

  4. 在service pool里,用到最新的docker技術,便於用戶對控制台進行更新與管理。

  5. 數據存儲的架構:採用基於HBASE的opentsdb存儲任意時間段的數據

  6. 較好的將狀態監控,性能監控,資源管理,更好的報告機制進行有機的整合

  7. 直觀且專業的管理界面對於用戶極具吸引力。

  缺點:

  1. 對資源要求較高,即使只管理少數幾台設備、它也需要消耗大量硬體及內存等附加資源。

  2. 針對windows系統,開源版只提供SNMP,通過WMI檢測CPU,Disk,軟硬體和性能只在收費版提供。

Hyperic HQ

Hyperic HQ是一個基於Java的Web基礎設施監控和管理平台,提供監測生產環境中各技術棧的可視性。體系結構的關鍵要素是HQ Server,可用於集中管理和持久性存儲,以及HQ Agent提供了對每個監測平台基礎地監測和控制。

用戶群:通常用於大型計算環境,其核心價值是能夠自動並且輕鬆管理和控制數百台機器的上千軟體資源。資源庫包括:作業系統、應用伺服器、應用組件及其他軟體組件。

  優點:

  1. 自動發現功能出色。通過點擊就能發現資產列表。

  2. 監測9+系統,自帶75+個資源插件。

  3. 最大化可用性:在問題發生之前,警報、控制去糾正問題。

  4. 可以追蹤性能、配置、安全的變化。

  缺點:

  1. 指標都是默認提供的,無法自定義指標(在不開發的基礎上)。

  2. 基礎功能比較缺乏,需要強大的二次開發能力。

OpenNMS

OpenNMS是一個企業級基於Java/XML的分布式網絡和系統監控管理平台。OpenNMS是你管理網絡的絕好工具,它能夠顯示你網絡中各中終端和伺服器的狀態和配置,為你方便地管理網絡提供有效信息。

OpenNMS專注於三個方面:服務輪詢、數據收集、事件和提示管理。

  優點:

  1. 定製儀錶板功能令人讚嘆

  2. 已經得到廣泛普及,目前已經有超過15,000+款插件可供用戶選擇。

  3. 搜尋功能實用。如以節點為單位搜尋DNS或者POP3等特定服務;對與資產(包括位置、作業系統及運行狀態)相關的數據欄位進行搜尋。

  4. 報表功能非常全面,其中包含大量預創建模板並能夠運行臨時報告。

  缺點:

  1. 界面對使用者不太直觀

Cacti

Cacti是一套完整的網絡流量監測圖形分析解決方案,基於RRDTool的數據存儲和圖形功能實現網絡監控。Cacti提供快速的數據查詢,先進的圖形模板,多種化數據採集方法和用戶管理功能。通過一個直觀、易於使用的界面,實現從區域網規模到數百台設備的複雜網絡監控,可以指定每一個用戶能查看樹狀結構、Host以及任何一張圖,還可以與LDAP結合進行用戶驗證,同時也能自己增加模板,功能非常強大。

優點:

  1. 界面比較好看,主要用途還是用來收集歷史數據和畫圖;

  2. 樹圖設置自由度高,可以調節經常看的圖放在前面;

  3. 用戶權限設置細;

  缺點:

  1. 檢驗的頻率是默認5分鐘,增加頻率會有一些Bug;

  2. Web界面設置比較難找;

  3. 添加自定義圖表比較麻煩;

監控寶

監控寶是雲智慧為用戶提供IT性能監控(IT Performance Monitoring)的SaaS產品,包含網站監控、伺服器監控、中間件監控、資料庫監控、應用監控、API監控和頁面性能監控等功能。包含免費版、暢享版和企業版,目前用戶約40萬,監控寶app也是國內唯一提供移動監控服務的產品。

  用戶群:覆蓋電子商務、移動網際網路、廣告傳媒、在線遊戲、教育醫療等行業的幾十萬用戶,小米、陌陌、高德、用友、金山、途牛、聚美優品、陸金所、中國平安、建行信用卡中心、春雨醫生、暢遊、國家電網、中國電信、滴滴打車、春秋航空、鳳凰網等各行業領先企業和中國網際網路百強企業超過30%在使用監控寶。

優點:

  1、 作為國內最早提供基於SaaS服務的網絡監控平台,監控寶不但為初級用戶提供免費的標準服務,企業用戶還可以按需購買所需的監控、告警資源,最大限度的節省企業運維成本;

  2、 監控寶通過遍布全球的300多個分布式監測節點,對網絡進行穩定性和可用性的主動監控和實時分析,支持http(https)、ftp、ping、udp、tcp、smtp、traceroute等多種協議,測量CDN效果及DNS狀態,全網全地域性能趨勢分析。

  3、 實時捕捉伺服器深層性能指標,支持Linux/Unix/Windows系統及雲平台,支持CPU使用率、CPU平均負載、內存使用比例、磁碟IO、磁碟空間使用率、網絡流量和系統進程數統計等物理指標及30多種應用服務,雲主機監控端一鍵開啟,無需複雜配置。對於應用服務的監控,監控寶已經支持常見的應用類型包括:Apache、Lighttpd、Nginx、Tomcat、IIS、Memcache和Redis,存儲層監控支持Hadoop、MySQL、MongoDB、SQLServer、Oracle的健康狀態及性能監控。

  4、 監控寶是國內目前唯一支持API監控的網絡監控產品,通過API接口調用模擬用戶使用過程,支持對get、post、put、delete、head、options六種請求方式進行實時監控;支持JSON、XML、Text、Response Status驗證及Postman腳本導入。

  5、 Docker監控也是監控寶的獨家功能,能夠實時監控Docker容器的CPU、內存、網絡流量及Swap狀態,讓開發者和運維人員在使用Docker時清晰掌握其資源消耗狀況。

  6、 監控寶提供頁面性能管理,基於國際標準制定頁面性能指數,識別加載元素的狀態及正確性,對全網全用戶加載響應時間分析,同時準確定位問題元素及優化建議。

  7、 及時有效的告警通知對運維來說至關重要,監控寶可以根據SLA設置告警閾值,第一時間發送告警通知。監控寶覆蓋最全面的告警通知方式:電子郵件、簡訊、電話語音、URL回調通知、App Push等。另外監控寶提供分級告警通知,能夠根據告警事件的不同等級將不同的告警推送給不同的人員,支持企業分層管理!

  8、 監控寶目前對其Smart Agent進行了開源,用戶可以根據業務需求定製化開發Agent,同時用戶的數據安全得到保障。

  9、 監控寶提供私有化部署解決方案,滿足政企、金融行業專有網絡監控的需求。

  10、 來自Compuware、CA、IBM等企業IT服務資深專家,超過5年的本土化企業級SaaS服務經驗,以及超過百人的技術服務團隊,為用戶提供最佳的服務保障。

  缺點:免費版只支持6個監控點,每月免費簡訊100條,監控頻率為30分鐘。

Open-falcon

Open-falcon是小米運維團隊從網際網路公司的需求出發,根據多年的運維經驗,結合SRE、SA、DEVS的使用經驗和反饋,開發的一套面向網際網路的企業級開源監控產品。

 Open-falcon架構

  用戶群:在2015年5月份發布並且形成了一個數百人的交流群,目前有幾十家企業用戶不同程度使用。

  優點:

  1. 強大靈活的數據採集:自動發現,支持falcon-agent、snmp、支持用戶主動push、用戶自定義插件支持、opentsdb data model like(timestamp、endpoint、metric、key-value tags)

  2. 水平擴展能力:支持每個周期上億次的數據採集、告警判定、歷史數據存儲和查詢

  3. 高效率的告警策略管理:高效的portal、支持策略模板、模板繼承和覆蓋、多種告警方式、支持callback調用

  4. 人性化的告警設置:最大告警次數、告警級別、告警恢復通知、告警暫停、不同時段不同閾值、支持維護周期

  5. 高效率的graph組件:單機支撐200萬metric的上報、歸檔、存儲(周期為1分鐘)

  6. 高效的歷史數據query組件:採用rrdtool的數據歸檔策略,秒級返回上百個metric一年的歷史數據

  7. dashboard:多維度的數據展示,用戶自定義Screen

  8. 高可用:系統無核心單點,易運維,易部署,可水平擴展;

  9. 插件式監控框架,通過各種插件目前支持Linux主機監控(指標更多)、Windows主機監控、Mysql監控、Redis監控、Memache監控、RabbitMQ監控和交換機監控。

  缺點:由於小米公司的知名度、其運維水平能力很高,open-falcon的功能相對完整、開放性及免費特點,相信在未來會在國內監控運維領域占據一個很大很高的地位。不過由於其發布時間較短,很多基礎的服務監控插件(如Tomcat、apache等)還不支持,很多功能還在不斷完善中,另外由於缺少專門的支持,雖然有開放社區,但是解決問題的效率相對較低。

OWL

OWL 是大數據公司Talkingdata運維部開發的一款分布式企業級監控解決方案。既能監控IT基礎資源,又支持其他數據的監控,融合了運維人員喜聞樂見的語言和技術(如Python,Shell等),還能服務於開發人員,方便靈活地放入更多的業務監控指標。

OWL 體系架構

  由於Talkingdata是做大數據分析的公司,因此在設計OWL 時,充分考慮了各種大數據算法及分布式存儲,使得監控報警更加靈活,數據分析更加豐富,業務監控也比較方便。

  用戶群:Talkingdata自用,預計在年底開源,已有不少運維開始關注。

  優點:

  1. 基於複雜算法的浮動報警規則:OWL 不僅支持固定報警閾值,也支持浮動報警。即在到達預設的閥值後,自動追加閥值,這樣一定程度上可以降低信息的發送量,在系統恢復正常之後,OWL 監控系統也能自動恢復到之前的閥值;

  2. 靈活方便的用戶自定義報表:監控系統的每個用戶(如網絡工程師,系統工程師,DBA,DevOps等)都可以定製自己的圖表工作檯;

  3. 真正可視化的資產管理:OWL 最新版保持了先前的特色-模擬機櫃圖,現實資產的同時顯示主機的監控狀態,位置和狀態一目了然;

  4. 部署方便的Agent ,支持進程守護:OWL 的監控Agent 不依賴OS,方便部署,可支持多種插件,並藉助於雙生機制,實現了進程守護;

  5. 可平行擴展的底層數據存儲:選擇了平行擴展性好的hbase,上層使用tsdb封裝。這雖然喪失了靈活數據查詢形式,但是對於數據存儲,可以做到比較好的透明化;

  缺點:由於產品尚未公開發布,所以只能從介紹信息判斷,目前產品還不是很成熟,功能主要圍繞Talkingdata自身的運維需求,包括可視化資產管理的內容。其它功能除了告警可能會更深入之外,與open-falcon比較類似。

360網站服務監控

360網站服務監控是一款面向廣大站長的網站監控產品,提供免費的網站、伺服器監控。

用戶群:個人站長

優點:

服務免費,支持網站HTTP監控、PING監控、域名DNS監控和伺服器監控

提供網站訪問全景數據和簡單配置信息。

缺點:

只支持簡單的網站和伺服器監控,歷史數據保留15天,且免費監控點數量僅為四個。

最後一次產品更新是2014年9月,目前已停止更新和運營支持。

阿里雲監控

阿里雲監控是一款免費網站監控產品,可監控站點和伺服器,並提供多種告警方式:簡訊,旺旺,郵件。

用戶群:阿里雲用戶

優點:

與阿里雲服務捆綁緊密,允許用戶自定義數據監控

阿里雲多IDC間內網數據傳輸,不占用客戶公網資源

支持對業務數據的通用統計,從各個角度反應服務的運行情況

缺點:

所有服務基於阿里雲,功能單一,擴展性差

功能不夠強大,只能滿足基礎監控需求

百度雲觀測

百度雲觀測是百度推出的一款雲服務產品,類似於360雲監控、阿里雲監控,主要是為站長提供免費的一站式網站監測、預警服務,功能覆蓋網站運行狀況、安全和訪問速度等多個方面。

用戶群:個人站長

優點:

對於用戶每日訪問的站點進行安全檢測

國內各大城市雲節點覆蓋,支持CDN、DNS狀態和主機監控

缺點:

需要進行網站認證

監控點少,功能簡單,只能監測網站狀態,不支持伺服器、應用監控。

小蜜蜂網站監測

小蜜蜂網站監測是一款針對中小企業需求開發的綜合測量網站運營情況線上工具,可以定時監控網站或伺服器器的可用率(Uptime),一旦網站無法連結、或是伺服器發生錯誤,即可發送告警通知。

用戶群:中小企業網站管理員

優點:

小蜜蜂通過探測節點和Last Mile兩種模式監測網站可用性,支持多種站點監控類型和不同的網絡訪問傳輸協議;

提供多樣化監控告警設置,並支持站內實時告警消息,支持RSS。

缺點:

只支持基本的網站監控,監控點不可選,監控服務不穩定;

網站性能歷史數據不夠詳細,且無法導出。

隨著新技術的不斷發展,雲服務已經網際網路企業的必須,但是長期以來會存在傳統物理主機和雲主機、私有雲和公有雲並存的狀態。此外,網際網路企業的發 展速度非常快,小米、滴滴出行等很多企業都是在短短几年內發展起來的,因此選擇一款合適的雲監控產品,伴隨企業同步成長,是非常必要的。

本文內容整理自網絡, 文中所有觀點看法不代表淘大白的立場