前言
Sentry
是一个用于监控和报告应用程序错误的平台。使用 飞书机器人
与 Sentry
集成,可以及时获得错误通知并进行相应处理。从而加快错误处理的速度,提高开发团队的效率。
实现概述
经调研发现,实现方案主要分为两大类:
- 使用 Sentry 连接器。
- 启动一个定时任务,再结合自定义机器人进行实现。
在发送通知时,考虑到需要获取以下信息:
- 错误数。
- 影响人数。
- 错误标题。
- 对应错误的
Sentry
链接。 - 服务器
IP
。 - 错误发生时间等。
这里使用 Sentry 连接器
不方便地获取到这些信息,所以决定使用 【启动一个定时任务,再结合自定义机器人进行实现】 这个方案。
技术细节
定时任务的启动,经调研也可以有多种实现方式,比如:
- 利用
CI
的Schedules
启动一个定时任务。 - 使用
Node
启动一个定时任务。 - ……
公司之前就有使用 Node
启动一个定时任务的先例,为避免踩坑浪费时间,所以决定使用第二种定时任务方案 – 使用 Node
启动一个定时任务。
首先,在项目中引入 node-schedule
包。它可以在指定时间段以指定时间间隔执行自定义方法。
npm install node-schedule
Node Schedule is a flexible cron-like and not-cron-like job scheduler for Node.js. It allows you to schedule jobs (arbitrary functions) for execution at specific dates, with optional recurrence rules. It only uses a single timer at any given time (rather than reevaluating upcoming jobs every second/minute).
安装好后,在入口文件启动定时任务。
const schedule = require('node-schedule');
schedule.scheduleJob('0 0/30 7-23 * * *', () => {
task.run().then(() => {
console.log('执行成功');
}).catch(error => {
console.error(`执行失败', error);
})
});
然后在 task
中请求 issues
列表以及对应错误的数量。设置阀值,超过阀值时向飞书发送报警信息。
// task.js
// 查询数目
const LIMIT_NUM = 50;
// 阈值, >=该值 则触发报警
const USER_ALARM_NUM = 2;
const ERROR_ALARM_NUM = 5;
const run = async () => {
try {
// sentry 项目ids
const projectIds = [1, 2, ...];
// 查询数量
const errors = await getErrors(projectIds, LIMIT_NUM);
// 获取错误ids
const groupIds = errors.map(item => item.id);
const errorCount = await getErrorCount(projectIds, groupIds);
errors.forEach(item => {
const countInfo = errorCount.find(countItem => countItem.id === item.id)
if (countInfo) {
item.count = countInfo.count;
item.userCount = countInfo.userCount;
}
})
// 影响 $USER_ALARM_NUM 个用户并且错误数量超过 $ERROR_ALARM_NUM, 触发报警
const warnErrors = errors.filter(item => Number(item.userCount) >= USER_ALARM_NUM && Number(item.count) >= ERROR_ALARM_NUM);
if (!warnErrors.length) {
console.log('没有发现需要报警的数据');
return;
}
for (let i = 0; i < warnErrors.length && i < LIMIT_NUM; i++) {
const warnError = warnErrors[i];
// 发送飞书消息
const isAtAll = warnError.count >= 5 || warnError.userCount >= 5 || false;
const textContent = {
"msg_type": "text",
"content": {
"text": `报警: 每30分钟影响>=${USER_ALARM_NUM}个用户;错误数 >= ${ERROR_ALARM_NUM}
错误信息: ${warnError.title}
项目: ${warnError.slug || warnError.project}
错误数: ${warnError.count}, 错误人数: ${warnError.userCount}
链接: ${warnError.link}
服务器: IP ${ipAddress}, 时间 ${dayjs().format('YYYY-MM-DD HH:mm:ss')}
`
}
};
// 需要 @ 所有人
if (isAtAll) {
textContent.content.text = "<at user_id=\"all\">所有人</at> \r\n" + textContent.content.text;
}
// 发送飞书报警, 如果是本地运行, 则只控制台打印
axios.post($webhook, textContent, {
headers: {
'Content-Type': 'application/json'
}
}).then(() => {
console.info(JSON.stringify(textContent));
})
.catch(error => {
console.error(error);
})
}
} catch (error) {
console.error('发生错误', error);
}
}
请求 issues
以及 errorCount
的具体方法。
// service.js
// 查询的时长, 单位分钟
const SUB_MINUTE = 30;
// 获取错误
const getErrors = (projectIds, limit = 50) => {
const queryData = {
collapse: 'stats',
limit,
project: projectIds,
query: `is:unresolved level:error`,
shortIdLookup: 1,
sort: `user`, // user 用户, freq 事件
start: dayjs.utc().subtract(SUB_MINUTE, 'minute').format('YYYY-MM-DDTHH:mm:ss'),
end: dayjs.utc().format('YYYY-MM-DDTHH:mm:ss'),
utc: true,
};
const strQuery = queryString.stringify(queryData);
// 对应的 sentry 地址
const url = `https://sentry.cn/api/0/organizations/$organizationName/issues/?${strQuery}`
return axios.get(url, {
headers: {'Authorization': $token}
})
.then(res => {
return res.data.map(item => {
return {
id: item.id,
project: item.project.name,
title: item.title,
link: item.permalink,
slug: item.project.slug,
};
})
})
.catch(error => {
return Promise.reject(error);
})
}
// 获取错误的数量
const getErrorCount = (projectIds, groupIds) => {
const queryData = {
project: projectIds,
groups: groupIds,
query: `is:unresolved level:error`,
sort: `user`, // user 用户, freq 事件
start: dayjs.utc().subtract(SUB_MINUTE, 'minute').format('YYYY-MM-DDTHH:mm:ss'),
end: dayjs.utc().format('YYYY-MM-DDTHH:mm:ss'),
utc: true,
};
const strQuery = queryString.stringify(queryData);
const url = `https://sentry.cn/api/0/organizations/$$organizationName/issues/?${strQuery}`
return axios.get(url, {
headers: {'Authorization': $token}
})
.then(res => {
return res.data.map(item => {
return {
id: item.id,
count: item.count,
userCount: item.userCount,
};
})
})
.catch(error => {
return Promise.reject(error);
})
};
module.exports = {
getErrors,
getErrorCount
};
效果展示
改进和未来展望
- 目前有好些定时任务,代码相似度较大,考虑重新封装。
- 目前使用的是
Node
启动定时任务,需要额外的一台服务器来运行,考虑使用CI Schedules
来实现。
结论
通过飞书机器人实现自动化 Sentry 报错提醒,为我们的应用程序监控和错误处理带来了显著的便利和效率提升。通过将 Sentry 和飞书机器人进行集成,我们能够及时获得应用程序的错误通知,并能够快速响应和处理这些错误。这种自动化的报错提醒系统不仅减少了人工操作的需求,还大大缩短了故障发现和解决的时间,有助于提高应用程序的稳定性和用户体验。
使用飞书机器人,我们可以根据需求进行灵活的配置,例如设置通知的优先级、指定特定的用户或群组接收通知,或者设置报错频率阈值等。这样可以确保只有关键的错误才会触发通知,避免不必要的干扰。另外,我们还可以添加自定义的响应操作,让机器人在收到错误通知后自动执行一些预定义的操作,提高错误处理的速度和效率。
总之,通过飞书机器人实现自动化 Sentry 报错提醒,不仅简化了错误监控和处理流程,还提高了团队的协作效率。这种智能化的报错提醒系统为我们的开发团队提供了及时的反馈和支持,帮助我们更好地管理和优化应用程序的稳定性。随着技术的不断进步,我们可以进一步探索和利用机器学习和自动化技术,使报错提醒系统更加智能和高效。
参考链接
- Sentry 连接器:www.feishu.cn/hc/zh-CN/ar…
- 自定义机器人使用指南:open.feishu.cn/document/cl…