广告合作
  • 今日头条

    今日头条

  • 百度一下

    百度一下,你就知道

  • 新浪网

    新浪网 - 提供新闻线索,重大新闻爆料

  • 搜狐

    搜狐

  • 豆瓣

    豆瓣

  • 百度贴吧

    百度贴吧——全球领先的中文社区

  • 首页 尚未审核订阅工具 订阅

    Python实现网页源码抓取

    来源:网络收集  点击:  时间:2024-08-04
    【导读】:
    Python中的Urllib库功能非常强大,可以下面我们一起来看一下如何用这个库实现网页源码抓取工具/原料more电脑Python开发工具Urllib模块方法/步骤1/7分步阅读

    用import 命令导入 urllib 库,具体代码为:

    import urllib.request

    2/7

    用urllib.request.urlopen 打开一个网页,具体代码为:

    file = urllib.request.urlopen(http://www.baidu.com)

    经过上面的处理,我们把读取到的网页内中存到了变量 file当中

    3/7

    用read 方法将内容读取出来,具体代码为:

    data = file.read()

    4/7

    读取到内容之后,我们用文件操作方式,将读取的内容存放到文件当中。

    f = open(date.html,wb)f.write(data)f.close()

    5/7

    我们将内容存到了 date.html 当中,查看文件内容如图所示

    6/7

    上面代码是先读取内容,然后用文件操作方式进行保存源码,下面我们直接用模块中的方法进行保存,代码如下:

    filename = urllib.request.urlretrieve(http://www.baidu.com,filename=2.html)urllib.request.urlcleanup()

    7/7

    代码总结:

    import urllib.requestfile = urllib.request.urlopen(http://www.baidu.com)data = file.read()f = open(date.html,wb)f.write(data)f.close()#直接将网页写入本地filename = urllib.request.urlretrieve(http://www.baidu.com,filename=2.html)urllib.request.urlcleanup()

    以上是通过两种不同方式,读取指定网页的内容

    注意事项

    Python中所有字符需要是英文格式

    PYTHON网页读取
    本文关键词:

    版权声明:

    1、本文系转载,版权归原作者所有,旨在传递信息,不代表看本站的观点和立场。

    2、本站仅提供信息发布平台,不承担相关法律责任。

    3、若侵犯您的版权或隐私,请联系本站管理员删除。

    4、文章链接:http://www.1haoku.cn/art_1061182.html

    相关资讯

    ©2019-2020 http://www.1haoku.cn/ 国ICP备20009186号05-06 15:16:18  耗时:0.023
    0.0231s