鸟巢采集快速开始

准备
添加采集任务
配置数据采集规则
添加采集网址
配置计划任务自动采集
配置数据发布规则
采集规则有效性监控并使用邮件通知
使用同步采集API
使用数据导出API
查看实时采集日志
采集规则备份与恢复

准备

1.注册NewCrawler账号

2.安装鸟巢采集客户端应用

3.添加客户端应用到鸟巢采集WEB服务端

    进入 `系统设置` > `采集器管理` 添加客户端应用

添加采集任务

    进入刚添加的采集器节点，点击 `添加采集站点`

配置数据采集规则

1.打开 XPath可视化配置

    进入上一步添加的采集站点，点击 `数据采集规则` ，再点击 `XPath可视化配置`

2.设置抓取规则

    选中要抓取的字段

    如果有下一页，设置好下一页链接提取规则

    最后点击 `Done` 提示 `success` 表示创建规则成功

3.抓取测试

    重新点击 `数据采集规则` 刷新数据采集规则页面，可以在 `采集规则` 区域看到自动添加的规则
    点击 `采集测试` 可以看到抓取结果

添加采集网址

    进入 `采集网址列表` 页面，点击 `添加网址` ，在 `网址批量添加` 区域中输入网址然后点击 `添加网址`

配置计划任务自动采集

    进入 `计划任务管理` 页面，选择 `数据自动采集` ，设置 `执行时间` 可以循环或定时执行，如 `重复` `every 1 hours` 表示每1小时执行一次

配置数据发布规则

    进入 `数据发布规则` 页面，配置发布规则后点击 `添加`

采集规则有效性监控并使用邮件通知

配置邮件通知模板

    点击设置，进入 `邮件通知` 页面，配置邮件通知模板如 `采集规则监控` 后点击 `添加`

配置数据发布规则

    进入 `数据发布规则` 页面，配置发布规则如 `邮件通知` 后点击 `添加`

配置网址检测规则

    进入 `网址检测管理` 页面，配置网址检测规则如 `采集规则监控` 后点击 `添加`

配置网址自动检测计划任务

    进入 `计划任务管理` 页面，选择 `网址自动检测` ，设置 `执行时间` 可以循环或定时执行，如 `重复` `every 5 minutes` 表示每5分钟执行一次

使用同步采集API

    进入 `采集网址列表` 页面，点击 `添加网址` ，查看采集API `http://112.124.49.24:8700/api/url/fetch?siteId=19&urls=`

    使用采集API `http://112.124.49.24:8700/api/url/fetch?siteId=19&urls=http%3a%2f%2flist.jd.com%2flist.html%3fcat%3d9987%2c653%2c655`

使用数据导出API

    进入 `采集到的数据` 页面，点击 `数据导出` ，查看数据导出API `http://112.124.49.24:8700/api/data/export?siteId=19&pageNum=1&type=json`

    设置 `属性映射` ，点击 `保存`

    使用数据导出API `http://localhost:8600/api/data/export?siteId=1&pageNum=1&type=json`

查看实时采集日志

    点击底部的显示日志图标![logviewer.jpg](../static/img/quickstart/logviewer.jpg)     ，开启实时日志查看，再次点击底部的显示日志图标![logviewer.jpg](../static/img/quickstart/logviewer.jpg) ，将关闭实时日志查看。

采集规则备份与恢复

    进入 `站点备份恢复` 页面，点击 `备份` ，将备份采集任务的所有配置信息，不包括 `采集网址列表` 与 `采集到的数据`

    进入 `站点备份恢复` 页面，选择备份的压缩包，点击 `恢复` ，可以恢复所备份采集任务的所有配置信息