代理池
使用基于Redis的代理池来抓取网页数据
代理
使用一个代理来抓取网页数据
htmlunit js 解析
在网址抓取时,使用htmlunit来解析JavaScript
phantomjs js 解析
在网址抓取时,使用phantomjs来解析JavaScript
数据过滤DEMO
对匹配的数据有比较复杂的过滤需求时,可以使用数据过滤插件
保存文件到本地
对抓取到的图片等资源,可以使用此插件保存到本地
JDBC发布数据
对采集到的数据,可以直接使用JDBC发布到数据库