服务器采集指标项

标准系统采集项

cpu相关

  • cpu.idle idle是从时间的角度衡量CPU的空闲程度,idle值从文件/proc/stat中相关的数值计算得出.
  • cpu.loadavg 系统平均负载,agent会上报1min、5min和15分钟的三个值。

内存相关

  • mem.free 系统可用内存
  • mem.used 系统已使用内存
  • mem.total 系统总内存
  • mem.used.percent 系统已使用内存百分比,计算方法:(mem.used/mem.total)*100
  • mem.buffers 主要用于块设备数据缓冲
  • mem.cached 主要用于文件内容缓冲
  • mem.swap.used.percent swap使用百分比

文件系统

  • fs.files.rw 文件系统读写是否异常,正常为1, 异常为0
  • fs.inodes.used.percent 文件系统inodes使用百分比
  • fs.space.used.percent 文件系统空间使用百分比

硬盘相关

  • disk.io.await 每一个IO请求的处理的平均时间,这里可以理解为IO的响应时间,计算方法:(read_total_use_time + write_total_use_time)/total_io_requests
  • disk.io.util 在统计时间内所有处理IO时间,除以总共统计时间。例如,如果统计间隔1秒,该设备有0.8秒在处理IO,而0.2秒闲置,那么该设备的%util = 0.8/1 = 80%,所以该参数暗示了设备的繁忙程度.
  • disk.io.write_requests 硬盘每秒的写次数,计算方法:write_io_requests/use_time
  • disk.io.read_requests 硬盘每秒的读次数,计算方法:read_io_requests/use_time
  • disk.temperature 硬盘温度(单位摄氏度)
  • disk.mediaError the number of SMART errors on the physical disk
  • disk.otherError 非硬盘本身的错误
  • disk.raid.FailedNum raid array中失败的硬盘数量
  • disk.raid.critNum raid array中critical错误的硬盘数量

网络

  • net.in 进入服务器的每秒的数据量,单位bit
  • net.in.percent 网卡流入负载
  • net.out 出服务器的每秒数据量,单位bit
  • net.out.percent 网卡流出负载
  • net.in.droped 进入服务器的网络丢包数
  • net.out.droped 出服务器的丢包数
  • net.tcp.inuse 正在使用的TCP链接数
  • net.tcp.timewait 处于timewait的TCP链接数
  • net.sockets.used 已经使用的sockets数目
  • net.speed 网卡速度

内核监控

  • kernel.files.allocated 内核已经占用的文件描述符总量
  • kernel.files.allocated.percent内核已经占用的文件描述符百分
  • kernel.files.left 内核剩余文件描述符总量
  • kernel.files.max 系统文件描述符总量

系统其他

  • ps.running.num 正在运行的进程总数目
  • ps.zombies.num 僵尸进程总数
  • ps.total.num 进程总数
  • time.offset 时间误差,与NTP时间对比产生的时间误差,默认使用阿里云的 NTP Server 进行差异比对`
  • agent.alive agent存活上报