LodaStack 监控系统文档
LodaStack 监控系统是一套开源、分布式监控系统,具有强大高性能的数据采集终端,丰富的监控和报警配置,可私有部署的混合云监控,支持阿里云、腾讯云以及自有机房。
功能特性:
- 支持混合云监控,支持阿里云、腾讯云以及自有机房
- 原生支持 linux/
Windows
监控 - 支持 SDK
自定义监控
上报,方便开发人员接入监控系统 - 丰富多样的
插件
监控 - 基于
服务树
的严格灵活的权限管理和授权 - 企业级 LDAP 认证支持 和 企业微信认证
- 高性能、低开销 agent 支持丰富的采集项
- 低延时报警触达,自定义报警渠道
- agent 支持 tracing 数据上报
- 支持无值监控报警
- 支持交换机 SNMP 数据采集
- 服务器安全异常登录上报和审计
- 服务器链接
依赖拓扑
和 DNS 请求探测 - 节点配置继承, 简化管理配置
- 基于 raft 协议的高可用服务树
- GPU 设备监控支持
- 全面支持 IPv6 网络监控
产品功能:
高可用服务树管理服务节点和服务器资源
基于 raft 协议的高可用强一致配置服务,极大的方便了用户对服务器以及服务节点的配置和管理。几万台服务器配置几分钟内完成。配置数据和监控数据的隔离,使得数据安全性得以保障。
服务器性能指标监控
无论是物理机还是虚拟机,高性能低开销的 agent 可以帮助我们采集我们关心的数据指标。该系统支持内存 CPU 文件系统 网络等服务性能指标,指标指标力度可以达到秒级,业界属于领先水平。
交换机网络设备监控
通过 SNMP 协议,监控系统能够方便的采集监控到网络设备的流量,端口状态等信息,对底层交换机网络负载了如指掌。
API 性能监控以及可用性统计(支持多地域 API 性能拨测)
服务层面,我们通过多地域的周期探测可以获取到服务接口的性能数据,以一个完全黑盒的视角探测服务性能,及时发现有可能存在的局部错误和服务异常等情况。
服务器异常登录和异常链接监控
通过 agent 上报,我们可以清楚的知道有哪些用户什么时间登陆了服务器,从而可以防止服务器存在一些异常的登陆情况,并且对 SSH 远程登陆日志做内容审计。
服务器 DNS 访问记录 (无侵入)
通过在网络层的采样,在不影响服务器性能的前提下,我们上报采集了当前服务器发送的 DNS 请求记录,从而可以感知服务之间的依赖,和一些异常的域名解析。
快捷方便的 SDK 数据上报
通过 SDK 进行数据上报,可以快速的将自己程序内部的监控指标上报到监控系统,进而进行相应的监控和报警,甚至通过一行 shell 就可以上报一个指标数据,真正做到无门槛接入。
丰富的第三方插件库,多种中间件数据上报采集
丰富的插件库,是的监控系统可以支持很多中间件服务,比如 Redis, Memcache, MongoDB, nginx, MySQL 等服务。
LDAP 和 企业微信登录接入
企业认证是一个系统的根基,我们支持企业内部自己的 LDAP 认证和企业微信的 OAuth 登录。
支持 IPv6 设备监控,支持运行在 IPv6 网络环境中
随着国家大力推广 IPv6,lodastack 是国内第一套全面支持 IPv6 环境的监控系统。
GPU 设备监控
对于机器学习的场景, lodastack 监控系统也能够从容应对,将GPU监控数据上报到监控系统,实时观测 GPU 的使用率和负载。
报警流水记录 和 报警大盘,方便监控值班室(NOC)快速发现问题
通过报警大盘和报警流水记录,监控中心可以及时发现存在的报警和持续时间,快速联系到相关负责人,减少故障时间,降低故障带来的损失。
专业的国内团队支持和服务
团队中的成员大都来自 BAT 的专业团队,同语言、同时区的专业服务支持,使得客户不在有任何担忧。
监控对象
- 服务器
- 业务服务 (API or SDK)
- 中间件 (缓存或者数据库服务)
- 网络设备 (IPv4/IPv6)
- 公有云服务器
- 公有云 PASS 服务