广告合作
  • 今日头条

    今日头条

  • 百度一下

    百度一下,你就知道

  • 新浪网

    新浪网 - 提供新闻线索,重大新闻爆料

  • 搜狐

    搜狐

  • 豆瓣

    豆瓣

  • 百度贴吧

    百度贴吧——全球领先的中文社区

  • 首页 尚未审核订阅工具 订阅

    火车头采集器采集post方式分页的列表的采集教程

    来源:网络收集  点击:  时间:2024-07-27
    【导读】:
    何谓post才能得到列表,就是一般用了ajax或.NET中的一些技术当你请求新内容时,页面只进行局部刷新,地址栏中的URL不变。我们处理此类采集时的思路就是用抓包工具,截取请求时提交的内容找出共同特点,用火车中的“分页”变量进行替换并给定值范围,这样火车在采集时会自动提交请求内容得到新的内容列表进行采集。我在这里着重说下怎么样抓包,抓哪的包及处理抓包得到的数据。内容的采集和普通页面一样,在此就不多说了。工具/原料moreWSExplorer火车头采集器方法/步骤1/10分步阅读

    首先先下载抓包工具:WSExplorer(由于它被归为黑客软件,有个别杀毒软件下可能会误报。)

    2/10

    我们用浏览器打开你要抓取的页面,

    当你进行翻页时就会发现此页是用post提交翻页请求的。

    标题如图

    3/10

    下面打开你下载WSockExpert,界面如下

    4/10

    选择你用的浏览器,我用的是2345浏览器,里面有三个进程,最下面的那个是我们要的进程点击进去,找到那个你“POST”一般紧跟着这个动作的下一行或者上一行,就是POST的数据,也就是我们说的抓包的内容。

    5/10

    打开你浏览器要获取的那个页面点击几次下一页,你会发现WSockExpert里面的获取的数据再变化,就是POST的数据,也就是我们说的抓包的内容

    6/10

    你点击POST上面那行会出现下图,看到下面有个文本,鼠标移到到那边右边复制二进制文本

    7/10

    你你复制2到3个这样的内容到记事本去对吧,你会发现有一点点不同,看截图,

    8/10

    把抓包数据中我标注的地方换成火车中的变量,整个代码复制到火车中,如下图

    9/10

    注意上面HTTP获取方式一定选POST,用分页变量替换拍的包数据复制到发送数据中,并在后面注明分页的范围。测试一下会出现如下图

    10/10

    看图片都可以获取成功。内容采集的制做过程就不说的,就当普通页面处理。到此火车头PSOT分页就搞定了

    注意事项

    抓包工具很重要,很多抓包工具在WIN7或者WIN8环境下不能用,我的系统是WIN8,这个抓包工具不错。

    采集器post
    本文关键词:

    版权声明:

    1、本文系转载,版权归原作者所有,旨在传递信息,不代表看本站的观点和立场。

    2、本站仅提供信息发布平台,不承担相关法律责任。

    3、若侵犯您的版权或隐私,请联系本站管理员删除。

    4、文章链接:http://www.1haoku.cn/art_1015853.html

    相关资讯

    ©2019-2020 http://www.1haoku.cn/ 国ICP备20009186号05-06 04:04:28  耗时:0.025
    0.0247s