服务器采集指标项
标准系统采集项
cpu相关
cpu.idle idle是从时间的角度衡量CPU的空闲程度,idle值从文件/proc/stat中相关的数值计算得出.
cpu.loadavg 系统平均负载,agent会上报1min、5min和15分钟的三个值。
内存相关
mem.free 系统可用内存
mem.used 系统已使用内存
mem.total 系统总内存
mem.used.percent 系统已使用内存百分比,计算方法:(mem.used/mem.total)*100
mem.buffers 主要用于块设备数据缓冲
mem.cached 主要用于文件内容缓冲
mem.swap.used.percent swap使用百分比
文件系统
fs.files.rw 文件系统读写是否异常,正常为1, 异常为0
fs.inodes.used.percent 文件系统inodes使用百分比
fs.space.used.percent 文件系统空间使用百分比
硬盘相关
disk.io.await 每一个IO请求的处理的平均时间,这里可以理解为IO的响应时间,计算方法:(read_total_use_time + write_total_use_time)/total_io_requests
disk.io.util 在统计时间内所有处理IO时间,除以总共统计时间。例如,如果统计间隔1秒,该设备有0.8秒在处理IO,而0.2秒闲置,那么该设备的%util = 0.8/1 = 80%,所以该参数暗示了设备的繁忙程度.
disk.io.write_requests 硬盘每秒的写次数,计算方法:write_io_requests/use_time
disk.io.read_requests 硬盘每秒的读次数,计算方法:read_io_requests/use_time
disk.temperature 硬盘温度(单位摄氏度)
disk.mediaError the number of SMART errors on the physical disk
disk.otherError 非硬盘本身的错误
disk.raid.FailedNum raid array中失败的硬盘数量
disk.raid.critNum raid array中critical错误的硬盘数量
网络
net.in 进入服务器的每秒的数据量,单位bit
net.in.percent 网卡流入负载
net.out 出服务器的每秒数据量,单位bit
net.out.percent 网卡流出负载
net.in.droped 进入服务器的网络丢包数
net.out.droped 出服务器的丢包数
net.tcp.inuse 正在使用的TCP链接数
net.tcp.timewait 处于timewait的TCP链接数
net.sockets.used 已经使用的sockets数目
net.speed 网卡速度
内核监控
kernel.files.allocated 内核已经占用的文件描述符总量
kernel.files.allocated.percent内核已经占用的文件描述符百分
kernel.files.left 内核剩余文件描述符总量
kernel.files.max 系统文件描述符总量
系统其他
ps.running.num 正在运行的进程总数目
ps.zombies.num 僵尸进程总数
ps.total.num 进程总数
time.offset 时间误差,与NTP时间对比产生的时间误差,默认使用阿里云的 NTP Server 进行差异比对`
agent.alive agent存活上报