我们正在使用apache park,我们将json文件保存为hdfs中的gzip压缩parquet文件。但是,当读取它们以生成数据帧时,某些文件(但不是全部)会导致以下异常:
ERROR Executor: Exception in task 2.0 in stage 72.0 (TID 88)
org.apache.parquet.io.ParquetDecodingException: Can not read value at 351 in
block 0 in file file:/path/to/file [...]
Caused by: java.lang.ClassCastException:
org.apache.spark.sql.catalyst.expressions.MutableLong cannot be cast to
org.apache.spark.sql.catalyst.expressions.MutableDouble
任何帮助都非常感谢!
当您尝试同时读取具有不同模式的parquet文件时,会发生这种错误。尝试 /convert所有源文件具有相同的模式或同时转换所有源文件。