您好, 欢迎来到 !    登录 | 注册 | | 设为首页 | 收藏本站

apache-spark的cache()/ persist()内存消耗

apache-spark的cache()/ persist()内存消耗

尝试使用更多分区,每个cpu应该有2-4个分区。IME增加分区数量通常是使程序更稳定(通常更快)的最简单方法

认情况下,我认为您的代码将使用24个分区,但是对于50 GB的数据而言,这太少了。我会尝试至少几个分区。

接下来,您要使用SPARK_MEM=5g每个节点有7.5 GB的空间,因此最好也有SPARK_MEM=7500m

您也可以尝试增加内存比例,但我认为以上方法可能会有所帮助。

一般要点:为您的文件而不是s3使用HDFS,速度要快得多。确保在缓存数据之前适当地调整数据- 例如,如果您说有100列的TSV数据,但仅使用了10个字段,那么在尝试缓存之前,请确保已提取这些字段。

其他 2022/1/1 18:28:30 有409人围观

撰写回答


你尚未登录,登录后可以

和开发者交流问题的细节

关注并接收问题和回答的更新提醒

参与内容的编辑和改进,让解决方法与时俱进

请先登录

推荐问题


联系我
置顶