rossipan
diff --git a/‎README.md
Lines changed: 65 additions & 50 deletions b/‎README.md
Lines changed: 65 additions & 50 deletions
diff --git a/‎etc/zabbix/exporter/__init__.py b/‎etc/zabbix/exporter/__init__.py
diff --git a/‎etc/zabbix/exporter/etcd/__init__.py b/‎etc/zabbix/exporter/etcd/__init__.py
diff --git a/‎etc/zabbix/exporter/etcd/etcd-metrics.py
Lines changed: 139 additions & 0 deletions b/‎etc/zabbix/exporter/etcd/etcd-metrics.py
Lines changed: 139 additions & 0 deletions
diff --git a/‎etc/zabbix/etcd-stats/etcd-stats.py renamed to ‎etc/zabbix/exporter/etcd/etcd-stats.py
Lines changed: 0 additions & 1 deletion b/‎etc/zabbix/etcd-stats/etcd-stats.py renamed to ‎etc/zabbix/exporter/etcd/etcd-stats.py
Lines changed: 0 additions & 1 deletion
diff --git a/‎etc/zabbix/etcd-stats/urllib2_ssl.py renamed to ‎etc/zabbix/exporter/etcd/urllib2_ssl.py b/‎etc/zabbix/etcd-stats/urllib2_ssl.py renamed to ‎etc/zabbix/exporter/etcd/urllib2_ssl.py
diff --git a/‎etc/zabbix/exporter/kubernetes/__init__.py b/‎etc/zabbix/exporter/kubernetes/__init__.py
@@ -83,30 +83,45 @@ $ kubectl apply -f zabbix-agent-daemonset.yaml
 
 | Zabbix Item Name | Zabbix Item Key |
 | ------------ | ----------- |
-| **etcd node: health**| healthz|
-| **etcd node: receive requests**| v2/stats/self:recvAppendRequestCnt |
-| **etcd node: send requests**| v2/stats/self:sendAppendRequestCnt |
-| **etcd node: state**| v2/stats/self:state |
-| **etcd node: expires**| v2/stats/store:expireCount |
-| **etcd node: gets fail**| v2/stats/store:getsFail |
-| **etcd node: gets success**| v2/stats/store:getsSuccess |
-| **etcd node: watchers**| v2/stats/store:watchers |
-| **etcd cluster: sets fail**| v2/stats/store:setsFail |
-| **etcd cluster: sets success**| v2/stats/store:setsSuccess |
-| **etcd cluster: update fail**| v2/stats/store:updateFail |
-| **etcd cluster: update success**| v2/stats/store:updateSuccess |
-| **etcd cluster: compare and delete fail**| v2/stats/store:compareAndDeleteFail |
-| **etcd cluster: compare and delete success**| v2/stats/store:compareAndDeleteSuccess |
-| **etcd cluster: compare and swap fail**| v2/stats/store:compareAndSwapFail |
-| **etcd cluster: compare and swap success**| v2/stats/store:compareAndSwapSuccess |
-| **etcd cluster: create fail**| v2/stats/store:createFail |
-| **etcd cluster: create success**| v2/stats/store:createSuccess |
-| **etcd cluster: delete fail**| v2/stats/store:deleteFail |
-| **etcd cluster: delete success**| v2/stats/store:deleteSuccess |
-| **ETCD MEMBERS**| v2/members |
-| **etcd follower: {#MEMBER NAME} failed raft requests**| v2/stats/leader:followers/{#MEMBER ID}/counts/fail |
-| **etcd follower: {#MEMBER NAME} successful raft requests**| v2/stats/leader:followers/{#MEMBER ID}/counts/success |
-| **etcd follower: {#MEMBER NAME} latency to leader**| v2/stats/leader:followers/{#MEMBER ID}/latency/current | 
+| **etcd node: health**| etcd.stats["health:health"]|
+| **etcd node: receive requests**| etcd.stats["v2/stats/self:recvAppendRequestCnt"] |
+| **etcd node: send requests**| etcd.stats["v2/stats/self:sendAppendRequestCnt"] |
+| **etcd node: state**| etcd.stats["v2/stats/self:state"] |
+| **etcd node: expires**| etcd.stats["v2/stats/store:expireCount"] |
+| **etcd node: gets fail**| etcd.stats["v2/stats/store:getsFail"] |
+| **etcd node: gets success**| etcd.stats["v2/stats/store:getsSuccess"] |
+| **etcd node: watchers**| etcd.stats["v2/stats/store:watchers"] |
+| **etcd cluster: sets fail**| etcd.stats["v2/stats/store:setsFail"] |
+| **etcd cluster: sets success**| etcd.stats["v2/stats/store:setsSuccess"] |
+| **etcd cluster: update fail**| etcd.stats["v2/stats/store:updateFail"] |
+| **etcd cluster: update success**| etcd.stats["v2/stats/store:updateSuccess"] |
+| **etcd cluster: compare and delete fail**| etcd.stats["v2/stats/store:compareAndDeleteFail"] |
+| **etcd cluster: compare and delete success**| etcd.stats["v2/stats/store:compareAndDeleteSuccess"] |
+| **etcd cluster: compare and swap fail**| etcd.stats["v2/stats/store:compareAndSwapFail"] |
+| **etcd cluster: compare and swap success**| etcd.stats["v2/stats/store:compareAndSwapSuccess"] |
+| **etcd cluster: create fail**| etcd.stats["v2/stats/store:createFail"] |
+| **etcd cluster: create success**| etcd.stats["v2/stats/store:createSuccess"] |
+| **etcd cluster: delete fail**| etcd.stats["v2/stats/store:deleteFail"] |
+| **etcd cluster: delete success**| etcd.stats["v2/stats/store:deleteSuccess"] |
+| **ETCD MEMBERS**| etcd.member.discovery |
+| **etcd follower: {#MEMBER NAME} failed raft requests**| etcd.stats["v2/stats/leader:followers/{#ID}/counts/fail"] |
+| **etcd follower: {#MEMBER NAME} successful raft requests**| etcd.stats["v2/stats/leader:followers/{#ID}/counts/success"] |
+| **etcd follower: {#MEMBER NAME} latency to leader**| etcd.stats["v2/stats/leader:followers/{#ID}/latency/current"] | 
+| **The number of leader changes seen**| etcd.metrics[counter,etcd_server_leader_changes_seen_total] |
+| **The total number of failed proposals seen**| etcd.metrics[counter,etcd_server_proposals_failed_total] |
+| **Whether or not a leader exists. 1 is existence, 0 is not**| etcd.metrics[gauge,etcd_server_has_leader] |
+| **The total number of consensus proposals applied in last 5 minutes**| etcd.metrics[gauge,etcd_server_proposals_applied_total] |
+| **The total number of consensus proposals committed in last 5 minutes**| etcd.metrics[gauge,etcd_server_proposals_committed_total] |
+| **The current number of pending proposals to commit**| etcd.metrics[gauge,etcd_server_proposals_pending] |
+| **Maximum number of open file descriptors**| etcd.metrics[gauge,process_max_fds] |
+| **Number of open file descriptors**| etcd.metrics[gauge,process_open_fds] |
+| **etcd_disk_backend_commit_duration_seconds_count in last 5 minutes**| etcd.metrics[histogram,etcd_disk_backend_commit_duration_seconds_count] |
+| **etcd_disk_backend_commit_duration_seconds_sum in last 5 minutes**| etcd.metrics[histogram,etcd_disk_backend_commit_duration_seconds_sum] |
+| **The latency distributions of commit called by backend in last 5 minutes**| last("etcd.metrics[histogram,etcd_disk_backend_commit_duration_seconds_sum]",0)/last("etcd.metrics[histogram,etcd_disk_wal_fsync_duration_seconds_count]",0) |
+| **etcd_disk_wal_fsync_duration_seconds_count in last 5 minutes**| etcd.metrics[histogram,etcd_disk_wal_fsync_duration_seconds_count] |
+| **etcd_disk_wal_fsync_duration_seconds_sum in last 5 minutes**| etcd.metrics[histogram,etcd_disk_wal_fsync_duration_seconds_sum] |
+| **The latency distributions of fsync called by wal in last 5 minutes**| last("etcd.metrics[histogram,etcd_disk_wal_fsync_duration_seconds_sum]",0)/last("etcd.metrics[histogram,etcd_disk_wal_fsync_duration_seconds_count]",0) |
+
 
 
 ### Kubernetes apiserver/controller/scheduler
@@ -119,34 +134,34 @@ $ kubectl apply -f zabbix-agent-daemonset.yaml
 | **apiserver_request_count: error_rate (verb=PATCH)**| apiserver_request_error_rate[PATCH]|
 | **apiserver_request_count: error_rate (verb=POST)**| apiserver_request_error_rate[POST]|
 | **apiserver_request_count: error_rate (verb=PUT)**| apiserver_request_error_rate[PUT]|
-| **apiserver_request_count: verb=DELETE, metrics=error_count**| metrics_exporter[https://{HOST.IP}:443/metrics,counter,apiserver_request_count,DELETE:error_count]|
-| **apiserver_request_count: verb=DELETE, metrics=total_count**| metrics_exporter[https://{HOST.IP}:443/metrics,counter,apiserver_request_count,DELETE:total_count]|
-| **apiserver_request_count: verb=GET, metrics=error_count**| metrics_exporter[https://{HOST.IP}:443/metrics,counter,apiserver_request_count,GET:error_count]|
-| **apiserver_request_count: verb=GET, metrics=total_count**| metrics_exporter[https://{HOST.IP}:443/metrics,counter,apiserver_request_count,GET:total_count]|
-| **apiserver_request_count: verb=LIST, metrics=error_count**| metrics_exporter[https://{HOST.IP}:443/metrics,counter,apiserver_request_count,LIST:error_count]|
-| **apiserver_request_count: verb=POST, metrics=total_count**| metrics_exporter[https://{HOST.IP}:443/metrics,counter,apiserver_request_count,LIST:total_count]|
-| **apiserver_request_count: verb=PATCH, metrics=error_count**| metrics_exporter[https://{HOST.IP}:443/metrics,counter,apiserver_request_count,PATCH:error_count]|
-| **apiserver_request_count: verb=PATCH, metrics=total_count**| metrics_exporter[https://{HOST.IP}:443/metrics,counter,apiserver_request_count,PATCH:total_count]|
-| **apiserver_request_count: verb=POST, metrics=error_count**| metrics_exporter[https://{HOST.IP}:443/metrics,counter,apiserver_request_count,POST:error_count]|
-| **apiserver_request_count: verb=POST, metrics=total_count**| metrics_exporter[https://{HOST.IP}:443/metrics,counter,apiserver_request_count,POST:total_count]|
-| **apiserver_request_count: verb=PUT, metrics=error_count**| metrics_exporter[https://{HOST.IP}:443/metrics,counter,apiserver_request_count,PUT:error_count]|
-| **apiserver_request_count: verb=PUT, metrics=total_count**| metrics_exporter[https://{HOST.IP}:443/metrics,counter,apiserver_request_count,PUT:total_count]|
-| **apiserver_request_latencies: DELETE**| metrics_exporter[https://{HOST.IP}:443/metrics,summary,apiserver_request_latencies_summary,DELETE]|
-| **apiserver_request_latencies: GET**| metrics_exporter[https://{HOST.IP}:443/metrics,summary,apiserver_request_latencies_summary,GET]|
-| **apiserver_request_latencies: LIST**| metrics_exporter[https://{HOST.IP}:443/metrics,summary,apiserver_request_latencies_summary,LIST]|
-| **apiserver_request_latencies: PATCH**| metrics_exporter[https://{HOST.IP}:443/metrics,summary,apiserver_request_latencies_summary,PATCH]|
-| **apiserver_request_latencies: POST**| metrics_exporter[https://{HOST.IP}:443/metrics,summary,apiserver_request_latencies_summary,POST]|
-| **apiserver_request_latencies: PUT**| metrics_exporter[https://{HOST.IP}:443/metrics,summary,apiserver_request_latencies_summary,PUT]|
-| **apiserver_request_latencies: POST**| metrics_exporter[https://{HOST.IP}:443/metrics,summary,apiserver_request_latencies_summary,POST]|
-| **apiserver: healthz**| metrics_exporter[https://{HOST.IP}:443/healthz,healthz]|
-| **kube-scheduler: healthz**| metrics_exporter[http://{HOST.IP}:10251/healthz,healthz]|
-| **kube-scheduler: current leader**| metrics_exporter[https://{HOST.IP}:443,get_leader,kube-scheduler]|
-| **kube-controller-manager: healthz**| metrics_exporter[http://{HOST.IP}:10252/healthz,healthz]|
-| **kube-controller-manager: current leader**| metrics_exporter[https://{HOST.IP}:443,get_leader,kube-controller-manager]|
+| **apiserver_request_count: verb=DELETE, metrics=error_count**| kube.metrics[https://{HOST.IP}:443/metrics,counter,apiserver_request_count,DELETE:error_count]|
+| **apiserver_request_count: verb=DELETE, metrics=total_count**| kube.metrics[https://{HOST.IP}:443/metrics,counter,apiserver_request_count,DELETE:total_count]|
+| **apiserver_request_count: verb=GET, metrics=error_count**| kube.metrics[https://{HOST.IP}:443/metrics,counter,apiserver_request_count,GET:error_count]|
+| **apiserver_request_count: verb=GET, metrics=total_count**| kube.metrics[https://{HOST.IP}:443/metrics,counter,apiserver_request_count,GET:total_count]|
+| **apiserver_request_count: verb=LIST, metrics=error_count**| kube.metrics[https://{HOST.IP}:443/metrics,counter,apiserver_request_count,LIST:error_count]|
+| **apiserver_request_count: verb=POST, metrics=total_count**| kube.metrics[https://{HOST.IP}:443/metrics,counter,apiserver_request_count,LIST:total_count]|
+| **apiserver_request_count: verb=PATCH, metrics=error_count**| kube.metrics[https://{HOST.IP}:443/metrics,counter,apiserver_request_count,PATCH:error_count]|
+| **apiserver_request_count: verb=PATCH, metrics=total_count**| kube.metrics[https://{HOST.IP}:443/metrics,counter,apiserver_request_count,PATCH:total_count]|
+| **apiserver_request_count: verb=POST, metrics=error_count**| kube.metrics[https://{HOST.IP}:443/metrics,counter,apiserver_request_count,POST:error_count]|
+| **apiserver_request_count: verb=POST, metrics=total_count**| kube.metrics[https://{HOST.IP}:443/metrics,counter,apiserver_request_count,POST:total_count]|
+| **apiserver_request_count: verb=PUT, metrics=error_count**| kube.metrics[https://{HOST.IP}:443/metrics,counter,apiserver_request_count,PUT:error_count]|
+| **apiserver_request_count: verb=PUT, metrics=total_count**| kube.metrics[https://{HOST.IP}:443/metrics,counter,apiserver_request_count,PUT:total_count]|
+| **apiserver_request_latencies: DELETE**| kube.metrics[https://{HOST.IP}:443/metrics,summary,apiserver_request_latencies_summary,DELETE]|
+| **apiserver_request_latencies: GET**| kube.metrics[https://{HOST.IP}:443/metrics,summary,apiserver_request_latencies_summary,GET]|
+| **apiserver_request_latencies: LIST**| kube.metrics[https://{HOST.IP}:443/metrics,summary,apiserver_request_latencies_summary,LIST]|
+| **apiserver_request_latencies: PATCH**| kube.metrics[https://{HOST.IP}:443/metrics,summary,apiserver_request_latencies_summary,PATCH]|
+| **apiserver_request_latencies: POST**| kube.metrics[https://{HOST.IP}:443/metrics,summary,apiserver_request_latencies_summary,POST]|
+| **apiserver_request_latencies: PUT**| kube.metrics[https://{HOST.IP}:443/metrics,summary,apiserver_request_latencies_summary,PUT]|
+| **apiserver_request_latencies: POST**| kube.metrics[https://{HOST.IP}:443/metrics,summary,apiserver_request_latencies_summary,POST]|
+| **apiserver: healthz**| kube.metrics[https://{HOST.IP}:443/healthz,healthz]|
+| **kube-scheduler: healthz**| kube.metrics[http://{HOST.IP}:10251/healthz,healthz]|
+| **kube-scheduler: current leader**| kube.metrics[https://{HOST.IP}:443,get_leader,kube-scheduler]|
+| **kube-controller-manager: healthz**| kube.metrics[http://{HOST.IP}:10252/healthz,healthz]|
+| **kube-controller-manager: current leader**| kube.metrics[https://{HOST.IP}:443,get_leader,kube-controller-manager]|
 
 
 ### Kubelet
 | Zabbix Item Name | Zabbix Item Key |
 | ------------ | ----------- |
-| **kubelet: healthz**| metrics_exporter[https://{HOST.IP}:10250/healthz,healthz]|
-| **KUBELET_RUNNING_POD_COUNT**| metrics_exporter[https://{HOST.IP}:10250/metrics,gauge,kubelet_running_pod_count]|
+| **kubelet: healthz**| kube.metrics[https://{HOST.IP}:10250/healthz,healthz]|
+| **KUBELET_RUNNING_POD_COUNT**| kube.metrics[https://{HOST.IP}:10250/metrics,gauge,kubelet_running_pod_count]|
@@ -0,0 +1,139 @@
+#!/usr/bin/env python
+"""
+Monitoring the health of etcd with metrics api.
+
+Examples:
+$ ./etcd-metrics.py -t gauge -q etcd_server_has_leader
+$ ./etcd-metrics.py -t counter -q etcd_server_leader_changes_seen_total
+$ ./etcd-metrics.py -t gauge -q process_max_fds
+$ ./etcd-metrics.py -t gauge -q process_open_fds
+$ ./etcd-metrics.py -t counter -q etcd_server_proposals_failed_total
+$ ./etcd-metrics.py -t gauge -q etcd_server_proposals_committed_total
+$ ./etcd-metrics.py -t gauge -q etcd_server_proposals_applied_total
+$ ./etcd-metrics.py -t gauge -q etcd_server_proposals_pending
+$ ./etcd-metrics.py -t histogram -q etcd_disk_backend_commit_duration_seconds_sum
+$ ./etcd-metrics.py -t histogram -q etcd_disk_backend_commit_duration_seconds_count
+$ ./etcd-metrics.py -t histogram -q etcd_disk_wal_fsync_duration_seconds_sum
+$ ./etcd-metrics.py -t histogram -q etcd_disk_wal_fsync_duration_seconds_count
+"""
+import json
+import os, sys
+import urllib2
+import urllib2_ssl
+import time
+import StringIO
+import argparse
+import ConfigParser
+from base64 import b16encode
+from sys import exit, stderr
+
+# this will let the script to import parent modules when execute directly
+sys.path.append(os.path.dirname(os.path.dirname(os.path.realpath(__file__))))
+from prometheus_client.parser import text_string_to_metric_families
+
+stats_cache_file_tmpl = '/tmp/zbx_etcd_stats_{url}.txt'
+rootfs_path = '/rootfs'
+etcd_config_file = rootfs_path + '/etc/etcd-environment'
+
+config = StringIO.StringIO()
+config.write('[dummysection]\n')
+config.write(open(etcd_config_file).read())
+config.seek(0, os.SEEK_SET)
+cp = ConfigParser.ConfigParser()
+cp.readfp(config)
+node_url = cp.get('dummysection', 'ETCD_ADVERTISE_CLIENT_URLS') + '/metrics'
+key_file = rootfs_path + '/etc/ssl/certs/etcd-client-key.pem'
+cert_file = rootfs_path + '/etc/ssl/certs/etcd-client.pem'
+ca_certs = rootfs_path + '/etc/ssl/certs/etcd-trusted-ca.pem'
+
+def connect(timeout=60):
+    '''Get the specified stats from the etcd (or from cached data).'''
+
+    # generate path for cache file
+    cache_file = stats_cache_file_tmpl.format(url=b16encode(node_url))
+
+    # get the age of the cache file
+    if os.path.exists(cache_file):
+        cache_age = int(time.time() - os.path.getmtime(cache_file))
+    else:
+        cache_age = timeout
+
+    # read stats from cache if it's still valid
+    if cache_age < timeout:
+        with open(cache_file, 'r') as c:
+            raw = c.read()
+
+    # if not get, get the fresh stats from the etcd server
+    else:
+        try:
+            opener = urllib2.build_opener(urllib2_ssl.HTTPSHandler(
+                    key_file=key_file,
+                    cert_file=cert_file,
+                    ca_certs=ca_certs))
+            raw = opener.open('%s' % (node_url)).read()
+        except (urllib2.URLError, ValueError) as e:
+            if e.code == 403:
+                raw = e.read()
+            else:
+                print >> stderr, '%s (%s)' % (e, node_url)
+                return None
+
+        try:
+            # save the contents to cache_file
+            cache_file_tmp = open(cache_file + '.tmp', "w")
+            cache_file_tmp.write(raw)
+            cache_file_tmp.flush()
+            cache_file_tmp.close()
+            os.rename(cache_file + '.tmp', cache_file)
+        except:
+            pass
+
+    # finally return the parsed response
+    try:
+        response = raw
+    except Exception as e:
+        print >> stderr, e
+        return None
+
+    return response
+
+def gauge(query_label_name):
+    metrics = connect()
+
+    for family in text_string_to_metric_families(metrics):
+        for sample in family.samples:
+            item = "{0}".format(*sample)
+            if item == query_label_name:
+                value = "{2}".format(*sample)
+                break
+
+    return value
+
+if __name__ == "__main__":
+    parser = argparse.ArgumentParser(description='Fetch etcd server metric')
+    parser.add_argument('-t',dest='query_type',action='store',help='[gauge|histogram]',required='true')
+    parser.add_argument('-q',dest='query_label_name',action='store',required='true')
+
+    args = parser.parse_args()
+    query_type = args.query_type
+    query_label_name = args.query_label_name
+
+    if query_type == 'gauge' or query_type == 'histogram':
+        result = gauge(query_label_name=query_label_name)
+    elif query_type == 'counter':
+        #Make counter metric name not have _total internally.
+        #With OpenMetrics the _total is a suffix on a sample
+        #for a counter, so the convention that Counters should end
+        #in total is now enforced. If an existing counter is
+        #missing the _total, it'll now appear on the /metrics.
+        #https://github.com/prometheus/client_python/commit/a4dd93bcc6a0422e10cfa585048d1813909c6786
+        if not query_label_name.endswith('_total'):
+            query_label_name = query_label_name + '_total'
+
+        result = gauge(query_label_name=query_label_name)
+
+    if result is not None:
+        print result
+    else:
+        print "ZBX_NOTSUPPORTED"
+        exit(1)
@@ -18,7 +18,6 @@
 import argparse
 import ConfigParser
 from base64 import b16encode
-from optparse import OptionParser
 from sys import exit, stderr
 
 stats_cache_file_tmpl = '/tmp/zbx_etcd_stats_{type}_{url}.txt'