爬山虎采集器-免费爬山虎采集器

爬山虎采集器,免费爬山虎采集器

爬山虎采集器,爬山虎采集器是一款数据采集工具,需要一定的编程能力+html代码能力才会用爬山虎采集器。为了照顾更多新手的朋友这里会给大家推荐一款免费的简单的采集器。详细参考图片

147采集界面.jpg


免费的147采集:通过可视化界面、鼠标点击即可采集数据、向导模式、用户无需任何技术基础,输入网址,一键提取数据。

智能识别:通过智能算法,自动识别分页,自动识别列表,一键采集数据。

网站独有采集风格:支持只采集图片或视频或文档等支持自定义保存路径、文件名,或发布到网站后台。

147发布界面.png


爬山虎采集器教程规则在我们采集商品详情时,有时我们需要采集商品的橱窗图(多张图片的列表),在此之前我们需要通过点击图片,然后手动修改字段XPath。

爬山虎采集器教程规则方法: 通过 右击图片 -> 生成XPath -> 生成图片列表XPath。

147SEO模板.png


爬山虎采集器教程规则使用脚本命令,手动添加一个滚动命令,具体设置滚动几页、滚动间隔时间,需要针对具体网站进行测试。第三步设置,在其他设置中,勾选在分页上执行采集脚本,这样在每次打开分页后,都会执行滚动命令。

然后浏览器会新建一个内容页的标签页。 在内容标签页中,点击添加字段,然后在浏览器中点击新闻内容,修改字段名称为内容。爬山虎采集器教程规则修改取值属性,想要HMTL就使用InnerHTML或者OuterHTML

如果在采集的时候,日志提示"深入采集的URL重复被过滤",可以通过对URL字段加上额外参数,使其不重复。 点击URL字段的数据处理,添加前后缀,设置后缀字符

147关键词挖掘.jpg


当然,我们需要根据URL的具体情况,爬山虎采集器教程规则设置不同的参数,分为2种情况

URL中不包含 ?,添加后缀字符 ?t={时间戳13}

URL中包含?,添加后缀字符 &t={时间戳13}

然后,在浏览器中把滚动条拖到底部。爬山虎采集器教程规则可以看到请求的链接,answers...开头的就是我们需要的请求。 选中,在右侧可以查看 json 数据预览。

找到请求后,选中请求,然后右击,选择Copy -> Copy request headers。

147伪原创.png


在复制了 request headers后,我们打开采集器,新建一个任务。首先,在第一步,勾选POST 请求,爬山虎采集器教程规则然后点击剪切板粘贴 Headers,粘贴完成之后,取消勾选POST 请求。然后选择 Url 编码 为UTF-8。

147发布.png


然后点击下一步,在第二部,我们切换到JSON 引擎。接下来,我们点击列表模式下的选择列表。然后我们 就可以添加需要抓取的字段了。点击添加字段,然后在JSON树中点击需要抓取的数据节点。爬山虎采集器教程规则到这里我们就完成了单页数据的抓取设置。批量生成分页下面我们再回到第一步,来设置采集分页的参数。选中offset=后面的8,会弹出批量生成网址窗口,这里我们设置最大100,步长为5。(最多采集100条,这里可以自己定义修改)

然后我们打开Fiddler(需要确认Fiddler是否开启了https抓包,Options->HTTPS-Decrpt HTTPs Traffic)

数据采集10.png


下一步,窗口切换到微信公众号的历史消息窗口,爬山虎采集器教程规则向下滚动,加载更多消息。然后我们窗口切换到Fiddler,在请求列表中找到 mp/profile_ext?action=getmsg&__biz=MjM5NzI1MTY0MQ==&f=json&offset=10= 这样的JSON请求。选择Inspectors -->Raw,全选Raw中的文本,复制 ctrl+c。然后打开爬山虎采集器,历史文章采集,在第一步,点击 POST请求,点击 从剪切板粘贴 Header。完成后,我们在网址中找到offset=10这个参数,用鼠标选中10,会自动弹出批量生成网址的窗口,设置起始值为0,最大值为5000,步长为10。 设置完,点击确定。


转载请说明出处
147SEO » 爬山虎采集器-免费爬山虎采集器

发表评论

欢迎 访客 发表评论

一个令你着迷的主题!

查看演示 官网购买