广告合作
  • 今日头条

    今日头条

  • 百度一下

    百度一下,你就知道

  • 新浪网

    新浪网 - 提供新闻线索,重大新闻爆料

  • 搜狐

    搜狐

  • 豆瓣

    豆瓣

  • 百度贴吧

    百度贴吧——全球领先的中文社区

  • 首页 尚未审核订阅工具 订阅

    Spark如何解决读取文本或CSV文件中文乱码的问题

    来源:网络收集  点击:  时间:2024-05-17
    【导读】:
    Spark是大数据分体的利器,有很多很棒的功能,不过尴尬的是,读取文本文件或CSV文件,如果源数据不是utf-8编码的,会出现中文乱码。工具/原料moreIntelliJ IDEA安装好Spark环境方法/步骤1/6分步阅读

    首先要知道源数据是什么中文编码,如果编码不是utf-8的话,用默认的方法读取:

    spark.read.option(header,true).csv(path)

    spark.read.textFile(path)

    就会有中文乱码。

    2/6

    运行IntelliJ IDEA,创建好相关的工程

    3/6

    要了解中文乱码的原因,这是原因上面的方法默认用TextInputFormat,而在TextInputFormat中把编码写死为UTF_8

    4/6

    读取文本文件的,我们可以spark.sparkContext.hadoopFile的方法中,对字符串的编码进行转换

    5/6

    如果不知道中文编码,可以遍历使用GBK、“GB2312等可能的中文编码,直到输出结果没中文乱码为止

    6/6

    如果是读取CSV文件的,也是要用hadoopFile这个低层的方法,先进行中文编码转化,再封装好StructField等的类型

    SPARK读文本SPARK中文乱码CSV中文乱码SPARK文本乱码
    本文关键词:

    版权声明:

    1、本文系转载,版权归原作者所有,旨在传递信息,不代表看本站的观点和立场。

    2、本站仅提供信息发布平台,不承担相关法律责任。

    3、若侵犯您的版权或隐私,请联系本站管理员删除。

    4、文章链接:http://www.1haoku.cn/art_779965.html

    相关资讯

    ©2019-2020 http://www.1haoku.cn/ 国ICP备20009186号05-07 05:50:40  耗时:0.023
    0.023s