服务器采集指标项
标准系统采集项
cpu相关
cpu.idle
idle是从时间的角度衡量CPU的空闲程度,idle值从文件/proc/stat中相关的数值计算得出.
cpu.loadavg
系统平均负载,agent会上报1min、5min和15分钟的三个值。
内存相关
mem.free
系统可用内存
mem.used
系统已使用内存
mem.total
系统总内存
mem.used.percent
系统已使用内存百分比,计算方法:(mem.used/mem.total)*100
mem.buffers
主要用于块设备数据缓冲
mem.cached
主要用于文件内容缓冲
mem.swap.used.percent
swap使用百分比
文件系统
fs.files.rw
文件系统读写是否异常,正常为1
, 异常为0
fs.inodes.used.percent
文件系统inodes使用百分比
fs.space.used.percent
文件系统空间使用百分比
硬盘相关
disk.io.await
每一个IO请求的处理的平均时间,这里可以理解为IO的响应时间,计算方法:(read_total_use_time + write_total_use_time)/total_io_requests
disk.io.util
在统计时间内所有处理IO时间,除以总共统计时间。例如,如果统计间隔1秒,该设备有0.8秒在处理IO,而0.2秒闲置,那么该设备的%util = 0.8/1 = 80%,所以该参数暗示了设备的繁忙程度.
disk.io.write_requests
硬盘每秒的写次数,计算方法:write_io_requests/use_time
disk.io.read_requests
硬盘每秒的读次数,计算方法:read_io_requests/use_time
disk.temperature
硬盘温度(单位摄氏度)
disk.mediaError
the number of SMART errors on the physical disk
disk.otherError
非硬盘本身的错误
disk.raid.FailedNum
raid array中失败的硬盘数量
disk.raid.critNum
raid array中critical错误的硬盘数量
网络
net.in
进入服务器的每秒的数据量,单位bit
net.in.percent
网卡流入负载
net.out
出服务器的每秒数据量,单位bit
net.out.percent
网卡流出负载
net.in.droped
进入服务器的网络丢包数
net.out.droped
出服务器的丢包数
net.tcp.inuse
正在使用的TCP链接数
net.tcp.timewait
处于timewait的TCP链接数
net.sockets.used
已经使用的sockets数目
net.speed
网卡速度
内核监控
kernel.files.allocated
内核已经占用的文件描述符总量
kernel.files.allocated.percent
内核已经占用的文件描述符百分
kernel.files.left
内核剩余文件描述符总量
kernel.files.max
系统文件描述符总量
系统其他
ps.running.num
正在运行的进程总数目
ps.zombies.num
僵尸进程总数
ps.total.num
进程总数
time.offset
时间误差,与NTP时间对比产生的时间误差,默认使用阿里云的 NTP Server 进行差异比对`
agent.alive
agent存活上报