您好, 欢迎来到 !    登录 | 注册 | | 设为首页 | 收藏本站

在Apache Spark中,使用mapPartitions和结合使用广播变量和map有什么区别?

在Apache Spark中,使用mapPartitions和结合使用广播变量和map有什么区别?

broadcast用于将对象运送到每个工作程序节点。该对象将在该节点上的所有分区之间共享(并且值/即对象对于集群中的每个节点都是相同的)。广播的目的是在工作节点上的许多不同任务/分区中使用相同数据时节省网络成本。

mapPartitions相反,是RDD上可用的一种方法map,仅在分区上像一样工作。是的,您可以定义新的对象,例如jdbc连接,该对象对于每个分区都是唯一的。但是,您不能在不同的分区之间共享它,在不同的节点之间共享就更少。

其他 2022/1/1 18:14:57 有415人围观

撰写回答


你尚未登录,登录后可以

和开发者交流问题的细节

关注并接收问题和回答的更新提醒

参与内容的编辑和改进,让解决方法与时俱进

请先登录

推荐问题


联系我
置顶