火车头采集器采集post方式分页的列表的采集教程
来源:网络收集 点击: 时间:2024-07-27【导读】:
何谓post才能得到列表,就是一般用了ajax或.NET中的一些技术当你请求新内容时,页面只进行局部刷新,地址栏中的URL不变。我们处理此类采集时的思路就是用抓包工具,截取请求时提交的内容找出共同特点,用火车中的“分页”变量进行替换并给定值范围,这样火车在采集时会自动提交请求内容得到新的内容列表进行采集。我在这里着重说下怎么样抓包,抓哪的包及处理抓包得到的数据。内容的采集和普通页面一样,在此就不多说了。工具/原料moreWSExplorer火车头采集器方法/步骤1/10分步阅读
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10
首先先下载抓包工具:WSExplorer(由于它被归为黑客软件,有个别杀毒软件下可能会误报。)

我们用浏览器打开你要抓取的页面,
当你进行翻页时就会发现此页是用post提交翻页请求的。
标题如图

下面打开你下载WSockExpert,界面如下

选择你用的浏览器,我用的是2345浏览器,里面有三个进程,最下面的那个是我们要的进程点击进去,找到那个你“POST”一般紧跟着这个动作的下一行或者上一行,就是POST的数据,也就是我们说的抓包的内容。

打开你浏览器要获取的那个页面点击几次下一页,你会发现WSockExpert里面的获取的数据再变化,就是POST的数据,也就是我们说的抓包的内容


你点击POST上面那行会出现下图,看到下面有个文本,鼠标移到到那边右边复制二进制文本

你你复制2到3个这样的内容到记事本去对吧,你会发现有一点点不同,看截图,

把抓包数据中我标注的地方换成火车中的变量,整个代码复制到火车中,如下图

注意上面HTTP获取方式一定选POST,用分页变量替换拍的包数据复制到发送数据中,并在后面注明分页的范围。测试一下会出现如下图

看图片都可以获取成功。内容采集的制做过程就不说的,就当普通页面处理。到此火车头PSOT分页就搞定了
注意事项抓包工具很重要,很多抓包工具在WIN7或者WIN8环境下不能用,我的系统是WIN8,这个抓包工具不错。
采集器post版权声明:
1、本文系转载,版权归原作者所有,旨在传递信息,不代表看本站的观点和立场。
2、本站仅提供信息发布平台,不承担相关法律责任。
3、若侵犯您的版权或隐私,请联系本站管理员删除。
4、文章链接:http://www.1haoku.cn/art_1015853.html