提问者:小点点

在洗牌文件期间apache火花(1.6)作业中的FileNotFound异常


我正在研究spark 1.6,它因以下错误而使我的工作失败

Java . io . file not found exception:/data/05/DFS/dn/yarn/nm/user cache/willr 31/app cache/application _ 1413512480649 _ 0108/spark-local-20141028214722-43 f1/26/shuffle _ 0 _ 312 _ 0 . index(无此类文件或目录)java.io.FileOutputStream.open(本机方法)Java . io . file output stream .(file output stream

我正在执行联接操作。当我仔细查看错误并检查代码时,我发现它在从dataFrame写回CSV时失败了。但我无法摆脱它。我没有使用hdp,我对所有组件都有单独的安装。


共1个答案

匿名用户

这种类型的错误通常发生在某些任务存在更深层次的问题时,如显著的数据不对称。由于您没有提供足够的细节(请务必阅读如何提问以及如何创建一个最小、完整且可验证的示例)和作业统计数据,我能想到的唯一方法是显著增加随机分区的数量:

sqlContext.setConf("spark.sql.shuffle.partitions", 2048)