Python实现网页源码抓取

来源：网络收集点击：时间：2024-08-04

【导读】：

Python中的Urllib库功能非常强大，可以下面我们一起来看一下如何用这个库实现网页源码抓取工具/原料more电脑Python开发工具Urllib模块方法/步骤1/7分步阅读

用import 命令导入 urllib 库，具体代码为：

import urllib.request

2/7

用urllib.request.urlopen 打开一个网页，具体代码为：

file = urllib.request.urlopen(http://www.baidu.com)

经过上面的处理，我们把读取到的网页内中存到了变量 file当中

3/7

用read 方法将内容读取出来，具体代码为：

data = file.read()

4/7

读取到内容之后，我们用文件操作方式，将读取的内容存放到文件当中。

f = open(date.html,wb)f.write(data)f.close()

5/7

我们将内容存到了 date.html 当中，查看文件内容如图所示

6/7

上面代码是先读取内容，然后用文件操作方式进行保存源码，下面我们直接用模块中的方法进行保存，代码如下：

filename = urllib.request.urlretrieve(http://www.baidu.com,filename=2.html)urllib.request.urlcleanup()

7/7

代码总结：

import urllib.requestfile = urllib.request.urlopen(http://www.baidu.com)data = file.read()f = open(date.html,wb)f.write(data)f.close()#直接将网页写入本地filename = urllib.request.urlretrieve(http://www.baidu.com,filename=2.html)urllib.request.urlcleanup()

以上是通过两种不同方式，读取指定网页的内容

注意事项

Python中所有字符需要是英文格式

PYTHON网页读取

阅读全文

好评( 0 )

差评( 0 )

本文关键词：

1、本文系转载，版权归原作者所有，旨在传递信息，不代表看本站的观点和立场。

2、本站仅提供信息发布平台，不承担相关法律责任。

3、若侵犯您的版权或隐私，请联系本站管理员删除。

4、文章链接：http://www.1haoku.cn/art_1061182.html

上一篇：英雄联盟手游瞄准灵敏度在哪设置？下一篇：二进制如何转换成八进制，八进制如何转成二进制

一酷知识大全

今日头条

百度一下

新浪网

搜狐

豆瓣

百度贴吧

Python实现网页源码抓取

尚未审核相关分类

尚未审核随机资讯

相关资讯

一酷知识大全

今日头条

百度一下

新浪网

搜狐

豆瓣

百度贴吧

Python实现网页源码抓取

尚未审核相关分类

尚未审核最新

尚未审核随机资讯

相关资讯