通过飞书机器人实现自动化 sentry 报错提醒

前言

Sentry 是一个用于监控和报告应用程序错误的平台。使用 飞书机器人Sentry 集成,可以及时获得错误通知并进行相应处理。从而加快错误处理的速度,提高开发团队的效率。

实现概述

经调研发现,实现方案主要分为两大类:

在发送通知时,考虑到需要获取以下信息:

  • 错误数。
  • 影响人数。
  • 错误标题。
  • 对应错误的 Sentry 链接。
  • 服务器 IP
  • 错误发生时间等。

这里使用 Sentry 连接器 不方便地获取到这些信息,所以决定使用 【启动一个定时任务,再结合自定义机器人进行实现】 这个方案。

技术细节

定时任务的启动,经调研也可以有多种实现方式,比如:

  1. 利用 CISchedules 启动一个定时任务。
  2. 使用 Node 启动一个定时任务。
  3. ……

公司之前就有使用 Node 启动一个定时任务的先例,为避免踩坑浪费时间,所以决定使用第二种定时任务方案 – 使用 Node 启动一个定时任务。

首先,在项目中引入 node-schedule 包。它可以在指定时间段以指定时间间隔执行自定义方法。

npm install node-schedule

Node Schedule is a flexible cron-like and not-cron-like job scheduler for Node.js. It allows you to schedule jobs (arbitrary functions) for execution at specific dates, with optional recurrence rules. It only uses a single timer at any given time (rather than reevaluating upcoming jobs every second/minute).

安装好后,在入口文件启动定时任务。

const schedule = require('node-schedule');



schedule.scheduleJob('0 0/30 7-23 * * *', () => {
  task.run().then(() => {
    console.log('执行成功');
  }).catch(error => {
    console.error(`执行失败', error);
  })
});

然后在 task 中请求 issues 列表以及对应错误的数量。设置阀值,超过阀值时向飞书发送报警信息。

// task.js



// 查询数目
const LIMIT_NUM = 50;


// 阈值, >=该值 则触发报警
const USER_ALARM_NUM = 2;
const ERROR_ALARM_NUM = 5;

const run = async () => {
  try {
    // sentry 项目ids
    const projectIds = [1, 2, ...];
    // 查询数量
    const errors = await getErrors(projectIds, LIMIT_NUM);

    // 获取错误ids
    const groupIds = errors.map(item => item.id);
    const errorCount = await getErrorCount(projectIds, groupIds);
    errors.forEach(item => {
      const countInfo = errorCount.find(countItem => countItem.id === item.id)
      if (countInfo) {
        item.count = countInfo.count;
        item.userCount = countInfo.userCount;
      }
    })

    // 影响 $USER_ALARM_NUM 个用户并且错误数量超过 $ERROR_ALARM_NUM, 触发报警
    const warnErrors = errors.filter(item => Number(item.userCount) >= USER_ALARM_NUM && Number(item.count) >= ERROR_ALARM_NUM);
    if (!warnErrors.length) {
      console.log('没有发现需要报警的数据');
      return;
    }

    for (let i = 0; i < warnErrors.length && i < LIMIT_NUM; i++) {
      const warnError = warnErrors[i];

      // 发送飞书消息
      const isAtAll = warnError.count >= 5 || warnError.userCount >= 5 || false;

      const textContent = {
        "msg_type": "text",
        "content": {
          "text": `报警: 每30分钟影响>=${USER_ALARM_NUM}个用户;错误数 >= ${ERROR_ALARM_NUM}
            错误信息: ${warnError.title}
            项目: ${warnError.slug || warnError.project}
            错误数: ${warnError.count}, 错误人数: ${warnError.userCount}
            链接: ${warnError.link}
            服务器: IP ${ipAddress}, 时间 ${dayjs().format('YYYY-MM-DD HH:mm:ss')}
            `
        }
      };
      // 需要 @ 所有人
      if (isAtAll) {
        textContent.content.text = "<at user_id=\"all\">所有人</at> \r\n" + textContent.content.text;
      }


      // 发送飞书报警,  如果是本地运行, 则只控制台打印
     axios.post($webhook, textContent, {
         headers: {
             'Content-Type': 'application/json'
         }
     }).then(() => {
        console.info(JSON.stringify(textContent));
      })
      .catch(error => {
        console.error(error);
      })

    }
  } catch (error) {
    console.error('发生错误', error);
  }
}

请求 issues 以及 errorCount 的具体方法。

// service.js



// 查询的时长, 单位分钟
const SUB_MINUTE = 30;


// 获取错误
const getErrors = (projectIds, limit = 50) => {
  const queryData = {
    collapse: 'stats',
    limit,
    project: projectIds,
    query: `is:unresolved level:error`,
    shortIdLookup: 1,
    sort: `user`, // user 用户, freq 事件
    start: dayjs.utc().subtract(SUB_MINUTE, 'minute').format('YYYY-MM-DDTHH:mm:ss'),
    end: dayjs.utc().format('YYYY-MM-DDTHH:mm:ss'),
    utc: true,
  };

  const strQuery = queryString.stringify(queryData);
  // 对应的 sentry 地址
  const url = `https://sentry.cn/api/0/organizations/$organizationName/issues/?${strQuery}`

  return axios.get(url, {
    headers: {'Authorization': $token}
  })
    .then(res => {
      return res.data.map(item => {
        return {
          id: item.id,
          project: item.project.name,
          title: item.title,
          link: item.permalink,
          slug: item.project.slug,
        };
      })
    })
    .catch(error => {
      return Promise.reject(error);
    })
}

// 获取错误的数量
const getErrorCount = (projectIds, groupIds) => {
  const queryData = {
    project: projectIds,
    groups: groupIds,
    query: `is:unresolved level:error`,
    sort: `user`, // user 用户, freq 事件
    start: dayjs.utc().subtract(SUB_MINUTE, 'minute').format('YYYY-MM-DDTHH:mm:ss'),
    end: dayjs.utc().format('YYYY-MM-DDTHH:mm:ss'),
    utc: true,
  };

  const strQuery = queryString.stringify(queryData);
  const url = `https://sentry.cn/api/0/organizations/$$organizationName/issues/?${strQuery}`


  return axios.get(url, {
    headers: {'Authorization': $token}
  })
    .then(res => {
      return res.data.map(item => {
        return {
          id: item.id,
          count: item.count,
          userCount: item.userCount,
        };
      })

    })
    .catch(error => {
      return Promise.reject(error);
    })
};

module.exports = {
  getErrors,
  getErrorCount
};

效果展示

飞书-Sentry 报警机器人

改进和未来展望

  • 目前有好些定时任务,代码相似度较大,考虑重新封装。
  • 目前使用的是 Node 启动定时任务,需要额外的一台服务器来运行,考虑使用 CI Schedules 来实现。

结论

通过飞书机器人实现自动化 Sentry 报错提醒,为我们的应用程序监控和错误处理带来了显著的便利和效率提升。通过将 Sentry 和飞书机器人进行集成,我们能够及时获得应用程序的错误通知,并能够快速响应和处理这些错误。这种自动化的报错提醒系统不仅减少了人工操作的需求,还大大缩短了故障发现和解决的时间,有助于提高应用程序的稳定性和用户体验。

使用飞书机器人,我们可以根据需求进行灵活的配置,例如设置通知的优先级、指定特定的用户或群组接收通知,或者设置报错频率阈值等。这样可以确保只有关键的错误才会触发通知,避免不必要的干扰。另外,我们还可以添加自定义的响应操作,让机器人在收到错误通知后自动执行一些预定义的操作,提高错误处理的速度和效率。

总之,通过飞书机器人实现自动化 Sentry 报错提醒,不仅简化了错误监控和处理流程,还提高了团队的协作效率。这种智能化的报错提醒系统为我们的开发团队提供了及时的反馈和支持,帮助我们更好地管理和优化应用程序的稳定性。随着技术的不断进步,我们可以进一步探索和利用机器学习和自动化技术,使报错提醒系统更加智能和高效。

参考链接

© 版权声明
THE END
喜欢就支持一下吧
点赞0

Warning: mysqli_query(): (HY000/3): Error writing file '/tmp/MYBvI8Su' (Errcode: 28 - No space left on device) in /www/wwwroot/583.cn/wp-includes/class-wpdb.php on line 2345
admin的头像-五八三
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

图形验证码
取消
昵称代码图片