广告合作
  • 今日头条

    今日头条

  • 百度一下

    百度一下,你就知道

  • 新浪网

    新浪网 - 提供新闻线索,重大新闻爆料

  • 搜狐

    搜狐

  • 豆瓣

    豆瓣

  • 百度贴吧

    百度贴吧——全球领先的中文社区

  • 首页 尚未审核订阅工具 订阅

    如何采集景点游记

    来源:网络收集  点击:  时间:2024-02-20
    【导读】:
    有关旅游景点的攻略采集在前面的八爪鱼采集软件的精选规则中都有提到,前文介绍了像马蜂窝、去哪儿等旅游相关网站的数据采集,有兴趣的小伙伴可以前往了解。 本文中,八妹子主要想来介绍下,百度旅游频道有关景点情况介绍的内容,如何通过八爪鱼采集器进行采集操作。方法/步骤1/6分步阅读

    首先,先到八爪鱼采集软件内的规则市场搜索一下,有关百度的采集,目前更新的规则比较多,比如说百度地图采集、百度知道采集、百度景点采集等。找到百度景点采集的规则下载下来。

    2/6

    百度景点采集的规则分成3个子规则,首先是采集城市的链接地址,再以城市的链接地址循环采集每个景点的链接地址,最后是通过景点的链接地址再采集景点的游记、门票、评价等信息。

    很多时候,我们在遇到一个采集数量比较大的网站时,都可以考虑用上述采集思路将一个采集任务分成不同的小任务进行执行,对于提高采集速度和采集数据的准确性都能有帮助哦!

    接下来,很多小伙伴们在下载现成的规则使用的时候,都需要根据自己的实际需求,将部分采集规则设置进行适当的修改后使用。一般来说,最常用到的,就是修改示例中的目标网址及采集字段,本规则中需要修改的是循环框中的网址列表。

    3/6

    经上文可知,由于本套规则中是先城市再景点再游记,一环套一环的规则采集办法,执行完城市任务的时候需要将结果应用到景点任务中的循环URL中,同理,景点中采集得到的结果要应用到游记中的URL循环中去。具体操作如下图所示:

    4/6

    如果需要建立一个以网址列表的循环,操作步骤也非常简单,首先,可以手工拖入一个循环框,在右侧的高级选项中,选择URL列表循环,将结构相同的网址保存进入,点击【OK】,再点击保存,

    5/6

    接着拖入【打开网页】操作进入循环框,在右侧的高级选项中,选择以【使用当前循环里的URL作为导航地址】并保存,网址循环设置就成功了,小伙伴们可以自己去体验下。

    6/6

    最后,回到百度旅游景点采集的规则上来,修改完成后即可来看看数据采集的情况啦!

    游记采集网页采集
    本文关键词:

    版权声明:

    1、本文系转载,版权归原作者所有,旨在传递信息,不代表看本站的观点和立场。

    2、本站仅提供信息发布平台,不承担相关法律责任。

    3、若侵犯您的版权或隐私,请联系本站管理员删除。

    4、文章链接:http://www.1haoku.cn/art_85501.html

    相关资讯

    ©2019-2020 http://www.1haoku.cn/ 国ICP备20009186号05-05 07:04:55  耗时:0.023
    0.0235s