LodaStack 监控系统文档

LodaStack 监控系统是一套开源、分布式监控系统,具有强大高性能的数据采集终端,丰富的监控和报警配置,可私有部署的混合云监控,支持阿里云、腾讯云以及自有机房。

功能特性:

产品功能:

高可用服务树管理服务节点和服务器资源

基于 raft 协议的高可用强一致配置服务,极大的方便了用户对服务器以及服务节点的配置和管理。几万台服务器配置几分钟内完成。配置数据和监控数据的隔离,使得数据安全性得以保障。

服务器性能指标监控

无论是物理机还是虚拟机,高性能低开销的 agent 可以帮助我们采集我们关心的数据指标。该系统支持内存 CPU 文件系统 网络等服务性能指标,指标指标力度可以达到秒级,业界属于领先水平。

交换机网络设备监控

通过 SNMP 协议,监控系统能够方便的采集监控到网络设备的流量,端口状态等信息,对底层交换机网络负载了如指掌。

API 性能监控以及可用性统计(支持多地域 API 性能拨测)

服务层面,我们通过多地域的周期探测可以获取到服务接口的性能数据,以一个完全黑盒的视角探测服务性能,及时发现有可能存在的局部错误和服务异常等情况。

服务器异常登录和异常链接监控

通过 agent 上报,我们可以清楚的知道有哪些用户什么时间登陆了服务器,从而可以防止服务器存在一些异常的登陆情况,并且对 SSH 远程登陆日志做内容审计。

服务器 DNS 访问记录 (无侵入)

通过在网络层的采样,在不影响服务器性能的前提下,我们上报采集了当前服务器发送的 DNS 请求记录,从而可以感知服务之间的依赖,和一些异常的域名解析。

快捷方便的 SDK 数据上报

通过 SDK 进行数据上报,可以快速的将自己程序内部的监控指标上报到监控系统,进而进行相应的监控和报警,甚至通过一行 shell 就可以上报一个指标数据,真正做到无门槛接入。

丰富的第三方插件库,多种中间件数据上报采集

丰富的插件库,是的监控系统可以支持很多中间件服务,比如 Redis, Memcache, MongoDB, nginx, MySQL 等服务。

LDAP 和 企业微信登录接入

企业认证是一个系统的根基,我们支持企业内部自己的 LDAP 认证和企业微信的 OAuth 登录。

支持 IPv6 设备监控,支持运行在 IPv6 网络环境中

随着国家大力推广 IPv6,lodastack 是国内第一套全面支持 IPv6 环境的监控系统。

GPU 设备监控

对于机器学习的场景, lodastack 监控系统也能够从容应对,将GPU监控数据上报到监控系统,实时观测 GPU 的使用率和负载。

报警流水记录 和 报警大盘,方便监控值班室(NOC)快速发现问题

通过报警大盘和报警流水记录,监控中心可以及时发现存在的报警和持续时间,快速联系到相关负责人,减少故障时间,降低故障带来的损失。

专业的国内团队支持和服务

团队中的成员大都来自 BAT 的专业团队,同语言、同时区的专业服务支持,使得客户不在有任何担忧。

监控对象

  • 服务器
  • 业务服务 (API or SDK)
  • 中间件 (缓存或者数据库服务)
  • 网络设备 (IPv4/IPv6)
  • 公有云服务器
  • 公有云 PASS 服务