Spark如何解决读取文本或CSV文件中文乱码的问题

来源：网络收集点击：时间：2024-05-17

【导读】：

Spark是大数据分体的利器，有很多很棒的功能，不过尴尬的是，读取文本文件或CSV文件，如果源数据不是utf-8编码的，会出现中文乱码。工具/原料moreIntelliJ IDEA安装好Spark环境方法/步骤1/6分步阅读

首先要知道源数据是什么中文编码，如果编码不是utf-8的话，用默认的方法读取：

spark.read.option(header,true).csv(path)

spark.read.textFile(path)

就会有中文乱码。

2/6

运行IntelliJ IDEA，创建好相关的工程

3/6

要了解中文乱码的原因，这是原因上面的方法默认用TextInputFormat，而在TextInputFormat中把编码写死为UTF_8

4/6

读取文本文件的，我们可以spark.sparkContext.hadoopFile的方法中，对字符串的编码进行转换

5/6

如果不知道中文编码，可以遍历使用GBK、“GB2312等可能的中文编码，直到输出结果没中文乱码为止

6/6

如果是读取CSV文件的，也是要用hadoopFile这个低层的方法，先进行中文编码转化，再封装好StructField等的类型

SPARK读文本SPARK中文乱码CSV中文乱码SPARK文本乱码

阅读全文

好评( 0 )

差评( 0 )

本文关键词：

1、本文系转载，版权归原作者所有，旨在传递信息，不代表看本站的观点和立场。

2、本站仅提供信息发布平台，不承担相关法律责任。

3、若侵犯您的版权或隐私，请联系本站管理员删除。

4、文章链接：http://www.1haoku.cn/art_779965.html

上一篇：抖音uid在哪里查看下一篇：怎样清洗美妆蛋

一酷知识大全

今日头条

百度一下

新浪网

搜狐

豆瓣

百度贴吧

Spark如何解决读取文本或CSV文件中文乱码的问题

尚未审核相关分类

尚未审核随机资讯

相关资讯

一酷知识大全

今日头条

百度一下

新浪网

搜狐

豆瓣

百度贴吧

Spark如何解决读取文本或CSV文件中文乱码的问题

尚未审核相关分类

尚未审核最新

尚未审核随机资讯

相关资讯