R软件如何读取文本数据?
来源:网络收集 点击: 时间:2024-03-01对于网页为csv文件的页面,可以直接用read.csv函数导入网页数据并转为数据框的形式。html格式的网页也可以读取。例如:
data - read.csv(text=it is a page)#text是要查看的文本
head(data,10)
#读取网页数据的代码data - read.csv(page),page可以是要查看的网址或文本

R基础包中的readLines可以读取网页或文本数据。
#输入文本
cat(asqsd\n1213,file=a1)
readLines(a1) #读取文本数据
#cat中\n表示换行。

RCurl包中的getURL()函数获取网页数据。
library(RCurl)
data-getURL(a1)#a1为某个具体的网址。
head(data)

通过getURL直接获取的数据有些凌乱,可以借助library(XML)解析树函数htmlTreeParse处理。
library(XML)#解析树函数htmlTreeParse
data_Parse-htmlTreeParse(data)
head(data_Parse,2)

对于复杂网站的文本数据,用rvest包中的read_html函数来提取文本数据。
library(rvest)
page-read_html(a1)#a1为某个具体的网址
data-html_nodes(page,table)
head(data)
#本例中没有输入网址,所以结果为空。

通过html_nodes获得的数据不能直接投入使用。
table-html_table(data);table #提取表格数据,可以得到多个表格结果
table#查看第1个表
text-html_text(data);text #提取文本数据
#在实际应用中,可以发现提取表格后的数据或文本是非常便于分析的。

版权声明:
1、本文系转载,版权归原作者所有,旨在传递信息,不代表看本站的观点和立场。
2、本站仅提供信息发布平台,不承担相关法律责任。
3、若侵犯您的版权或隐私,请联系本站管理员删除。
4、文章链接:http://www.1haoku.cn/art_187660.html