火车采集器是一款功能强大的数据采集软件,可以进行数据各式各样的数据采集,还可以自行设置时间及参数,随后一键启动即可,操作十分简单,对于提高我们的工作效率非常有帮助 。
功能介绍
1、通用性强
无论新闻、论坛、视频、黄页、图片、下载类网站,只要通过浏览器能看到的结构化的内容,通过指定匹配规则,都能采集到您所需要的内容。
2、稳定、高效
五年磨一剑,软件不断更新进步,采集速度快,性能稳定,占用资源少。
3、扩展性强、适用范围广
自定义web发布,自定义主流的数据库的保存和发布,自定义本地php及。net外部编程接口处理数据,让数据都能为你所用。
4、支持所有网站编码
完美支持采集所有编码格式的网页,程序还可以自动识别网页编码。
5、多种发布方式
支持目前所有主流和非主流的CMS,BBS等网站程序,通过系统的发布模块能实现采集器和网站程序间的完美结合。
6、全自动
无人值守工作,配置好程序后,程序将依据您的设置自动运行,完全无需人工干预。
7、本地编辑
本地可视化编辑已采集的数据。
8、采集测试
这是其它任何同类采集软件所不能比的,程序支持直接查看采集结果并测试发布。
9、管理方便
使用站点+任务方式管理采集节点,任务支持批量操作,再多的数据管理也很轻松。
软件特色
1、规则自定义
通过采集规则的定义,可以搜索所有网站采集几乎任何类型的信息。
2、多任务,多线程
可以同时进行多个信息采集任务,每个任务可以使用多个线程。
3、所见即所得
任务采集过程所见即所得,过程中遍历的链接信息、采集信息、错误信息等都会及时的反映在软件界面中。
4、数据保存
数据边采集边自动保存到关系数据库中,并且数据结构能够自动适应,软件可以根据采集规则自动创建数据库,以及其中的表和字段,也可以通过导库方式灵活的将数据保存到客户已有的数据库结构中。
5、断点续采
信息采集任务可以在停止后从断点开始继续采集,从此你用不再担心你的采集任务意外中断了。
6、网站登录
支持网站Cookie,支持网站可视化登录,即使登录时需要验证码的网站也能采集。
7、计划任务
通过这个功能可以让你的采集任务定时、定量或者一直循环执行。
8、采集范围限制
可以根据采集的深度和网址的标识来限制采集的范围。
9、文件下载
可以将采集到的二进制文件(诸如:图片、音乐、软件、文档等等)下载到本地磁盘或者采集结果数据库中。
10、结果替换
可以将采集的结果根据规则替换成你定义的内容。
11、条件保存
可以根据某个条件来决定那些信息保存,那些信息过滤。
12、过滤重复内容
软件可根据用户设置和实际情况对重复内容和重复网址自动删除重复内容。
13、特殊链接识别
运用此功能可以将用JavaScript动态生成的链接或其他更古怪的连接识别出来。
14、数据发布
可以通过自定义接口,将已采集的结果数据发布到任意的内容管理系统和指定数据库中。现在已支持的目标发布媒体包括:数据库(access, sql server,my sql,oracle) ,静态htm文件。
15、预留编程接口
定义多个编程接口,用户可以在事件中利用PHP,C#语言进行编程,扩充采集功能。
菜单功能
1、新建分组
新建一个任务分组,选择所属分组,确定分组名称和备注。
2、新建任务
确定所属分组,新建一个任务,填写任务名称并保存。
3、Web发布配置
Web发布配置定义了如何登陆一个网站以及向该网站提交数据。
主要涉及到登录信息的获取,网站编码设定,栏目列表的获取,以及使用数据测试发布效果。
4、Web发布模块
可以定义网站登录,获取栏目列表,获取网页随机值,内容发布参数,以及上传文件,构造发布数据等高级功能。
5、数据库发布配置
数据库发布配置定义了数据库链接信息的设置以及数据库模块的选择。
6、数据库发布模块
用于编辑数据库的发布模块,方便我们将数据发布到配置好的数据库中。
火车采集器可选mysql、sqlserver、oracle、access四种数据库类型,在文本输入框中填写sql语句
(需有数据库相关知识),并可使用标签替换相应数据。也可在采集器模块文件夹中加载某一模块进行编辑。
7、计划任务
设置列表中采集任务的启动计划,可每间隔、每天、每周、仅一次、或自定义Cron表达式,
(Cron表达式的写法可参考相关术语中的介绍)。保存设置后,任务即可按照设置执行。
8、插件管理
插件是可以用来扩展火车采集器功能的程序
火车采集器V9支持PHP源码、C#源码、C#类库三种类型的插件,
可用于扩展http请求、内容处理和文件下载的功能,并可以分别进行测试。
9、http二级代理
网络中的服务器,可以让网络用户去取得所需要的网络信息。
代理的功能有可以突破自身ip的访问限制访问国外站点,访问一些单位或团体内部资源,
突破电信的ip封锁和隐藏真实的ip等。
火车采集器V9支持http代理、socket4和socket5代理。
10、http模拟请求
可以设置如何发起一个http请求,包括设置请求信息,返回头信息。并具有自动提交的功能。
更新日志
火车采集器V9.21版
1、自动获取cookie功能优化。
2、数据库发布增加事务,优化数据库发布速度。
3、数据转换速度优化(针对Mysql和SqlServer数据库的导入), 同时去除网址库的清空逻辑。
4、html标签处理错误问题处理。
5、json提取关于数字转换为科学计数法问题处理。
6、发布测试时,图片上传无效的问题处理。
7、采集内容页处理错误时,增加对于当前出错标签的提示,以便快速定位出错标签。
8、任务批量编辑,增加可操作范围。
9、循环匹配匹配空格问题处理。
10、刷新分组中增加统计数据的刷新。
11、post分页处理。
12、部分功能逻辑优化。
火车采集器V9.9版
1、优化效率修复运行大量任务时运行卡顿问题。
2、修复大量代理时配置文件锁死程序退出问题。
3、修复部分情况下mysql链接不上问题。
4、其它界面和功能优化。
火车采集器V9.8版
1、“远程管理” 正式升级为 “私有云”,全面优化调整。
2、布模块增加自定义头信息的增加。
3、采集线程间隔调整,增加自定义区间设置。
4、长时间使用后的运行卡顿问题修复。
5、二级代理,IP输入框修改为普通TextBox。增加代理免验证的功能。
6、分组丢失、死循环问题修复。
7、ftp上传,增加超时处理。
用户还下载了:
- IE Tab插件 V14.11.12.1 绿色免费版
- ADSafe净网大师 V5.4.408.7000 最新正式版
- TamperMonkey(油猴插件)正式版 V4.16.0 最新版
- 石青新浪股吧推广软件1.2.10
- enable copy(解除网页复制限制chrome插件) V1.26 绿色免费版
- Xmanager6标准版 6.0.0080
- 猫抓插件 V1.0.16 官方版
- 火车采集器(LocoySpider)V10.1 官方版
- ITab新标签页(浏览器插件) V1.2.29.6 官方版
- 百度云分享链接搜寻 V1.1 绿色最新版
- 老铁流量宝工具1.0.0.1 绿色版
- 古剑奇谭破解补丁免费版v1.71