Python实现网页源码抓取
来源:网络收集 点击: 时间:2024-08-04用import 命令导入 urllib 库,具体代码为:
import urllib.request

用urllib.request.urlopen 打开一个网页,具体代码为:
file = urllib.request.urlopen(http://www.baidu.com)
经过上面的处理,我们把读取到的网页内中存到了变量 file当中

用read 方法将内容读取出来,具体代码为:
data = file.read()

读取到内容之后,我们用文件操作方式,将读取的内容存放到文件当中。
f = open(date.html,wb)f.write(data)f.close()

我们将内容存到了 date.html 当中,查看文件内容如图所示

上面代码是先读取内容,然后用文件操作方式进行保存源码,下面我们直接用模块中的方法进行保存,代码如下:
filename = urllib.request.urlretrieve(http://www.baidu.com,filename=2.html)urllib.request.urlcleanup()


代码总结:
import urllib.requestfile = urllib.request.urlopen(http://www.baidu.com)data = file.read()f = open(date.html,wb)f.write(data)f.close()#直接将网页写入本地filename = urllib.request.urlretrieve(http://www.baidu.com,filename=2.html)urllib.request.urlcleanup()
以上是通过两种不同方式,读取指定网页的内容

Python中所有字符需要是英文格式
PYTHON网页读取版权声明:
1、本文系转载,版权归原作者所有,旨在传递信息,不代表看本站的观点和立场。
2、本站仅提供信息发布平台,不承担相关法律责任。
3、若侵犯您的版权或隐私,请联系本站管理员删除。
4、文章链接:http://www.1haoku.cn/art_1061182.html