写程序很难之logstash之file input插件实现分析_MySQL

php中文网

发布时间：2016-06-01 13:14:19

1623人浏览过

来源于php中文网

原创

前言

写程序有时候真的有点难，要考虑各种情况。

应用在运行中，会不断生成日志文件。假如要实现一个日志收集的工具，不考虑其它的分析功能，只考虑收集，有哪些方面要考虑的？

首先看下一般的log框架是如何输出日志的：

可能是这样的：a.log.1, a.log.2, a.log.3, a.log.4, a.log.5 循环输出；

可能是这样的： a.2014-5-5.log, a.2014-5-6.log, a.2014-5-7.log，每天生成一个日志文件；

可能是这样的：log.out，每次重启都会生成一个新的log.out，覆盖旧的文件。

那么，我们有哪些方面要实现和注意的？

提供正则或者globs方式的通配符。
要能判断文件是不是新建的。
如何判断文件有没有更新？
如何保存文件的读取进度？
如果我们在读取文件的过程中，文件被删除了会怎样？
如果我们在读取文件过程中，进程挂了，读取进度有没有及时保存？
在保存文件进度时，如果挂了，重启能不能正确恢复文件进度？
能不能保证读取的内容不重复？
如果日志文件很快生成，又很快删除了，是否能保证不漏掉？
如果日志文件是软链接(soft link)，能不能正确处理？
文件系统的inode会被回收利用，能不能处理这个？
有没有控制读进内存的数据的大小，防止占用过多的内存？

logstash的实现

下面解释下logstash是如何实现和处理上面的问题的：

可以配置path参数（Array），其中支持globs风格的匹配，如：

path => [ "/var/log/messages", "/var/log/*.log" ]

可以配置exclude参数（Array），排除掉不需要的文件，如：

exclude => "*.gz"

利用inode来识别新文件

logstash把进度保存到所谓的sincedb里，实际上即这样的一个文本文件，默认是放在home目录下的，如：

.sincedb_e794081d6134aace51b759aea8cc3be2

.sincedb_f7a0c8a0def03e0c572511ceea0b9f63

后面是日志文件，即path的hash值。这样就区分了不同的文件名的日志文件的进度保存问题。

sincedb文件里是类似这样的内容：

6511055 0 2051 118617881
5495516 0 2051 155859036
6348913 0 2051 148511449

上面的4列分别是：

inode, major number, minor number, pos。

其中major number和minor number是设备相关的数字，参考：http://unix.stackexchange.com/questions/73988/linux-major-and-minor-device-numbers

inode是文件系统给文件分配的是一个号码，参考：http://zh.wikipedia.org/wiki/Inode

因此logstash区分了设备，文件名，文件的不同版本。

这里引出了一个新问题，用inode来判断文件的不同版本，是否够准确了？因为inode是会回收再使用的。

比如依次执行下面的命令，可以发现，两个文件的inode是一样的：

touch teststat testrm test touch teststat test

但是因为logstash是没有close掉文件，所以是一直持有inode，所以新的同名的日志文件会有一个新的inode。

也正是因为这样，如果logstash监视的日志文件如果被删除了，还是可以继续把删除的文件的内容处理完。

利用inode这点特性，有时可以做一些补救工作，比如不小心把mysql的文件删掉了，还是可以把数据dump出来，因为mysql进程还持有数据文件的inode。

另外，logstash默认是每隔1秒就尝试读取文件有没有新内容，默认是15秒就扫描，检查有没有新文件。对应stat_interval和discover_interval参数。

还有一些小细节：

凡科AI抠图

简单好用的在线抠图工具

下载

比如每次最多只读取出16394字节的数据，防止占用过多的内存，每5秒判断下是否需要保存新的pos。

如果日志文件被删除了，也会删除sincedb文件。

利用rename原子性地保存pos

当读取到新文件内容时，pos会增加，在保存新的pos到sincedb时，logstash采用了临时文件的办法：

先建立一个临时文件，写入新内容，再调用操作系统提供的remane函数，原子性地替换原来的sincedb文件。

这种实际上是比较常用的技巧了，redis也是这样子做的。

能否保证不重复，不丢失数据？

很遗憾，这是不能的，除非是分布式事务，否则，总有可能丢失或者重复发送数据。任何日志收集软件或者消息队列软件都是如此。

实现的代码

具体的实现代码就不贴了，因为比较易读，其中logstash使用了filewatch这个库，可以用gem来安装。相关的代码在线查看：

https://github.com/elasticsearch/logstash/blob/v1.4.1/lib/logstash/inputs/file.rb

https://github.com/jordansissel/ruby-filewatch/tree/master/lib/filewatch

和fluentd的in_tail插件比较

fluentd也是一个很流行的日志收集工具。

简单再看了下fluentd的in_tail插件，发现里面还有自己当年提交的一个防止内存占用过大的建议：）

https://github.com/fluent/fluentd/blob/master/lib/fluent/plugin/in_tail.rb

iflines.size>=MAX_LINES_AT_ONCE

# not to use too much memory in case the file is very large

read_more=true

即每最多读取1000行，就提交数据，并保存pos。

fluentd的in_tail插件的原理和logstash的file input是差不多的，都是用inode来区分文件是否更新。

但是fluentd只保存了inode和pos，没有logstash那样把设备都考虑进去了。

另外fluentd保存pos时，都是以文件追加的方式来保存的，没有像logstash那样是用rename文件来保存到新文件里。显然logstash的实现更加合理。

扯远一点，logstash部署要比fluentd方便，尽管两者都是用ruby写的，不同的是logstash默认是jruby，只要有JVM就可以跑，fluentd则要安装ruby环境，比较麻烦。

其它的一些东东：

logstash大有一统江湖之势，这句话忘记在哪里看到的了。在github上的logstash的start有2000多个。

logstash + elasticsearch + Kibana的日志收集，搜索，展现的一条龙服务非常流行。

参考：

http://unix.stackexchange.com/questions/73988/linux-major-and-minor-device-numbers

http://zh.wikipedia.org/wiki/Inode

https://github.com/elasticsearch/logstash/blob/v1.4.1/lib/logstash/inputs/file.rb

mysql是否可以在多个列上创建单独索引_mysql索引设计技巧

mysql如何使用默认配置安装_mysql安装快速教程

如何查询表中数据_mysql select基础操作

mysql如何防止用户越权操作_mysql权限安全策略

mysql数据库第二范式如何理解_mysql表设计原则

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：广州大学城高校互选课程管理系统sql注入致大量教师学生用户信息_MySQL 下一篇：phpMyAdmin 4.2.1 发布，MySQL 管理工具_MySQL

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

AI 图片处理图片拼接

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法

本专题系统整理pixiv网页版官网入口及登录访问方式，涵盖官网登录页面直达路径、在线阅读入口及快速进入方法说明，帮助用户高效找到pixiv官方网站，实现便捷、安全的网页端浏览与账号登录体验。

616

2026.02.13

微博网页版主页入口与登录指南_官方网页端快速访问方法

本专题系统整理微博网页版官方入口及网页端登录方式，涵盖首页直达地址、账号登录流程与常见访问问题说明，帮助用户快速找到微博官网主页，实现便捷、安全的网页端登录与内容浏览体验。

194

2026.02.13

Flutter跨平台开发与状态管理实战

本专题围绕Flutter框架展开，系统讲解跨平台UI构建原理与状态管理方案。内容涵盖Widget生命周期、路由管理、Provider与Bloc状态管理模式、网络请求封装及性能优化技巧。通过实战项目演示，帮助开发者构建流畅、可维护的跨平台移动应用。

2026.02.13

TypeScript工程化开发与Vite构建优化实践

本专题面向前端开发者，深入讲解 TypeScript 类型系统与大型项目结构设计方法，并结合 Vite 构建工具优化前端工程化流程。内容包括模块化设计、类型声明管理、代码分割、热更新原理以及构建性能调优。通过完整项目示例，帮助开发者提升代码可维护性与开发效率。

2026.02.13

Redis高可用架构与分布式缓存实战

本专题围绕 Redis 在高并发系统中的应用展开，系统讲解主从复制、哨兵机制、Cluster 集群模式及数据分片原理。内容涵盖缓存穿透与雪崩解决方案、分布式锁实现、热点数据优化及持久化策略。通过真实业务场景演示，帮助开发者构建高可用、可扩展的分布式缓存系统。

2026.02.13

c语言数据类型

本专题整合了c语言数据类型相关内容，阅读专题下面的文章了解更多详细内容。

2026.02.12

雨课堂网页版登录入口与使用指南_官方在线教学平台访问方法

本专题系统整理雨课堂网页版官方入口及在线登录方式，涵盖账号登录流程、官方直连入口及平台访问方法说明，帮助师生用户快速进入雨课堂在线教学平台，实现便捷、高效的课程学习与教学管理体验。

2026.02.12

豆包AI网页版入口与智能创作指南_官方在线写作与图片生成使用方法

本专题汇总豆包AI官方网页版入口及在线使用方式，涵盖智能写作工具、图片生成体验入口和官网登录方法，帮助用户快速直达豆包AI平台，高效完成文本创作与AI生图任务，实现便捷智能创作体验。

598

2026.02.12

PostgreSQL性能优化与索引调优实战

本专题面向后端开发与数据库工程师，深入讲解 PostgreSQL 查询优化原理与索引机制。内容包括执行计划分析、常见索引类型对比、慢查询优化策略、事务隔离级别以及高并发场景下的性能调优技巧。通过实战案例解析，帮助开发者提升数据库响应速度与系统稳定性。

2026.02.12

热门下载

网站特效

网站源码

网站素材

前端模板