apache-spark的cache（）/ persist（）内存消耗

尝试使用更多分区，每个cpu应该有2-4个分区。IME增加分区数量通常是使程序更稳定（通常更快）的最简单方法。

默认情况下，我认为您的代码将使用24个分区，但是对于50 GB的数据而言，这太少了。我会尝试至少几个分区。

接下来，您要使用SPARK_MEM=5g每个节点有7.5 GB的空间，因此最好也有SPARK_MEM=7500m。

您也可以尝试增加内存比例，但我认为以上方法可能会有所帮助。

一般要点：为您的文件而不是s3使用HDFS，速度要快得多。确保在缓存数据之前适当地调整数据- 例如，如果您说有100列的TSV数据，但仅使用了10个字段，那么在尝试缓存之前，请确保已提取这些字段。

其他 2022/1/1 18:28:30 有409人围观

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节

关注并接收问题和回答的更新提醒

参与内容的编辑和改进，让解决方法与时俱进

请先登录

推荐问题

在Jenkins API中，有没有办法找到上一个版本的git commit？

在Jenkins API中，有没有办法找到上一个版本的git commit？

其他 2022-01-01 965
如何建立一个动态查询，该查询增加了迄今为止的天数，并使用标准API比较该日期与另一个日期？

如何建立一个动态查询，该查询增加了迄今为止的天数，并使用标准API比较该日期与另一个日期？

其他 2022-01-01 1247
HTML5 File API以文本和二进制形式读取

HTML5 File API以文本和二进制形式读取

其他 2022-01-01 903
使用Hibernate Criteria API编写HQL子句

使用Hibernate Criteria API编写HQL子句

其他 2022-01-01 1016
如何在AngularJS中使用$ scope。$ watch和$ scope。$ apply？

如何在AngularJS中使用$ scope。$ watch和$ scope。$ apply？

其他 2022-01-01 959
Bootstrap CSS活动导航

Bootstrap CSS活动导航

CSS 2022-01-01 1030
如何正确使用CipherOutputStream加密和解密使用log4j（RollingFileAppender）创建的日志

如何正确使用CipherOutputStream加密和解密使用log4j（RollingFileAppender）创建的日志

其他 2022-01-01 995
为什么新的Java 8日期时间API不具有纳秒精度？

为什么新的Java 8日期时间API不具有纳秒精度？

java 2022-01-01 1042
如何在Azure网站上的React App中替换％PUBLIC_URL％

如何在Azure网站上的React App中替换％PUBLIC_URL％

其他 2022-01-01 991
服务应用程序和Google Analytics API V3：服务器到服务器的OAuth2身份验证？

服务应用程序和Google Analytics API V3：服务器到服务器的OAuth2身份验证？

Go 2022-01-01 1017
在本地xampp / apache服务器上设置SSL

在本地xampp / apache服务器上设置SSL

其他 2022-01-01 1081
如何以编程方式触发Bootstrap模式？

如何以编程方式触发Bootstrap模式？

其他 2022-01-01 835
无需连接数据库即可替代mysql_real_escape_string

无需连接数据库即可替代mysql_real_escape_string

MySQL 2022-01-01 762
从Web Api控制器返回http状态代码

从Web Api控制器返回http状态代码

其他 2022-01-01 845
使用Facebook的Graph API将照片上传到相册

使用Facebook的Graph API将照片上传到相册

其他 2022-01-01 811
我的applicationContext中可以有多个PropertyPlaceHolderConfigurer吗？

我的applicationContext中可以有多个PropertyPlaceHolderConfigurer吗？

其他 2022-01-01 931
apache mysql-3306上的“数据包出现故障”

apache mysql-3306上的“数据包出现故障”

MySQL 2022-01-01 787
如何使用Groovy API检索Jenkins构建参数？

如何使用Groovy API检索Jenkins构建参数？

其他 2022-01-01 943
Java Map为什么不扩展Collection？

Java Map为什么不扩展Collection？

java 2022-01-01 986
级联bean验证2.0不适用于Map中的嵌套对象

级联bean验证2.0不适用于Map中的嵌套对象

其他 2022-01-01 856

apache-spark的cache（）/ persist（）内存消耗

撰写回答

推荐问题

在Jenkins API中，有没有办法找到上一个版本的git commit？

如何建立一个动态查询，该查询增加了迄今为止的天数，并使用标准API比较该日期与另一个日期？

HTML5 File API以文本和二进制形式读取

使用Hibernate Criteria API编写HQL子句

如何在AngularJS中使用$ scope。$ watch和$ scope。$ apply？

Bootstrap CSS活动导航

如何正确使用CipherOutputStream加密和解密使用log4j（RollingFileAppender）创建的日志

为什么新的Java 8日期时间API不具有纳秒精度？

如何在Azure网站上的React App中替换％PUBLIC_URL％

服务应用程序和Google Analytics API V3：服务器到服务器的OAuth2身份验证？

在本地xampp / apache服务器上设置SSL

如何以编程方式触发Bootstrap模式？

无需连接数据库即可替代mysql_real_escape_string

从Web Api控制器返回http状态代码

使用Facebook的Graph API将照片上传到相册

我的applicationContext中可以有多个PropertyPlaceHolderConfigurer吗？

apache mysql-3306上的“数据包出现故障”

如何使用Groovy API检索Jenkins构建参数？

Java Map为什么不扩展Collection？

级联bean验证2.0不适用于Map中的嵌套对象

分类汇总

您的鼓励是对我最大的支持