spark save parquet in impala dir not support add columns---shengjk1

瞎采新闻发布于 2020-03-30 评论() 阅读()

1.问题：项目中使用 spark save parquet 到 impala( impala 为分区表 ) 的目录下面，然后在 impala 中添加字段，报错. 例如：我将 spark 生成的 parquet 数据放到 impala 表 event_s_p186 相应的目录下，然后添加字段 aaa，字段顺序如下：

报错如下：其中 day_id 为分区字段

2. 原因 impala( v3.2.0-cdh6.3.1 ) 默认的情况下是按照字段顺序读取数据的，添加了一个字段 aaa ，由于 parquet 中的数据并没有 aaa ，也没有 aaa 的占位符，它会默认把 day_id 当做 aaa.

3.解决办法： set PARQUET_FALLBACK_SCHEMA_RESOLUTION=name;

4.参考： Hive vs Impala Schema Loading Case: Reading Parquet Files PARQUET_FALLBACK_SCHEMA_RESOLUTION Query Option (CDH 5.8 or higher only)

---来自腾讯云社区的---shengjk1

标签: spark save parquet in impala dir not support add columns

点赞( ())

关于作者: 瞎采新闻

这里可以显示个人介绍！这里可以显示个人介绍！

留言与评论（共有 0 条评论）

给这篇文章的作者打赏

关于作者: 瞎采新闻

相关文章

热门文章

1渗透利器 | 常见的WebShell管理工具---Bypass

2什么时候使用 useMemo 和 useCallback---Nealyang

3LeetCode 315. Count of Smaller Numbers After Self(线段树，树状数组)---ShenduCC

41小时搞懂 Git 版本控制---CSDN技术头条

5使用 VSCODE 连接远程服务器上的容器---Alan Lee