用新值更新数据框列

您可以使用一个左连接来实现。

创建示例数据框

使用@Shankar Koirala在其答案中提供的样本数据。

data1 = [
  (1, "a"),
  (2, "b"),
  (3, "c")
]
df1 = sqlCtx.createDataFrame(data1, ["id", "value"])

data2 = [
  (1, "x"), 
  (2, "y")
]

df2 = sqlCtx.createDataFrame(data2, ["id", "value"])

左加入

使用id列上的左联接将两个DataFrame联接起来。这会将所有行保留在左侧的DataFrame中。对于右侧DataFrame中没有匹配项的行id，其值为null。

import pyspark.sql.functions as f
df1.alias('l').join(df2.alias('r'), on='id', how='left')\
    .select(
        'id',
         f.col('l.value').alias('left_value'),
         f.col('r.value').alias('right_value')
    )\
    .show()
#+---+----------+-----------+
#| id|left_value|right_value|
#+---+----------+-----------+
#|  1|         a|          x|
#|  3|         c|       null|
#|  2|         b|          y|
#+---+----------+-----------+

选择所需的数据

我们将利用不匹配的idsnull选择最后一列的事实。使用pyspark.sql.functions.when()使用权价值，如果它不为空，否则保持左值。

df1.alias('l').join(df2.alias('r'), on='id', how='left')\
    .select(
        'id',
        f.when(
            ~f.isnull(f.col('r.value')),
            f.col('r.value')
        ).otherwise(f.col('l.value')).alias('value')
    )\
    .show()
#+---+-----+
#| id|value|
#+---+-----+
#|  1|    x|
#|  3|    c|
#|  2|    y|
#+---+-----+

您可以id按顺序排序此输出。

使用pyspark-sql

您可以使用pyspark-sql 查询执行相同的操作：

df1.registerTempTable('df1')
df2.registerTempTable('df2')

query = """SELECT l.id, 
CASE WHEN r.value IS NOT NULL THEN r.value ELSE l.value END AS value 
FROM df1 l LEFT JOIN df2 r ON l.id = r.id"""
sqlCtx.sql(query.replace("\n", "")).show()
#+---+-----+
#| id|value|
#+---+-----+
#|  1|    x|
#|  3|    c|
#|  2|    y|
#+---+-----+

其他 2022/1/1 18:27:30 有432人围观

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节

关注并接收问题和回答的更新提醒

参与内容的编辑和改进，让解决方法与时俱进

请先登录

推荐问题

用新行爆炸PHP字符串

用新行爆炸PHP字符串

php 2022-01-01 316
使用新的data.json更新d3饼图

使用新的data.json更新d3饼图

其他 2022-01-01 391
使用新的Record类时无法反序列化

使用新的Record类时无法反序列化

其他 2022-01-01 333
如何使用新的PostgreSQL JSON数据类型内的字段进行查询？

如何使用新的PostgreSQL JSON数据类型内的字段进行查询？

SQLServer 2022-01-01 277
用新行分割Java字符串

用新行分割Java字符串

java 2022-01-01 346
使用新关键字创建的Spring bean（@Component）中的自动装配

使用新关键字创建的Spring bean（@Component）中的自动装配

Java 2022-01-01 341
JavaScript使用新的URL更新地址栏，而不散列或重新加载页面

JavaScript使用新的URL更新地址栏，而不散列或重新加载页面

javascript 2022-01-01 321
使用新的日期时间API格式化日期

使用新的日期时间API格式化日期

其他 2022-01-01 301
SQL用新值替换旧值

SQL用新值替换旧值

SQLServer 2022-01-01 340
用新值更新数据框列

用新值更新数据框列

其他 2022-01-01 432
使用新的java.time API时区的解析非常慢

使用新的java.time API时区的解析非常慢

java 2022-01-01 358
使用新的BufferedReader的“ java.io.IOException：流已关闭”

使用新的BufferedReader的“ java.io.IOException：流已关闭”

java 2022-01-01 339
使用新的Python格式函数舍入小数

使用新的Python格式函数舍入小数

python 2022-01-01 372
使用Datastax API（使用新的二进制协议）向上/从Cassandra数据库中读取数据

使用Datastax API（使用新的二进制协议）向上/从Cassandra数据库中读取数据

其他 2022-01-01 368
使用新的格式字符串记录变量数据

使用新的格式字符串记录变量数据

其他 2022-01-01 345
App Engine计划程序何时使用新线程而不是新实例？

App Engine计划程序何时使用新线程而不是新实例？

其他 2022-01-01 307
如何在不跳文档的情况下更新window.location.hash？

如何在不跳文档的情况下更新window.location.hash？

其他 2022-01-01 753
Spring MVC：验证，重定向后获取，部分更新，乐观并发，现场安全

Spring MVC：验证，重定向后获取，部分更新，乐观并发，现场安全

Java 2022-01-01 677
不调用更新方法的事务性保存

不调用更新方法的事务性保存

其他 2022-01-01 619
带有限制的休眠，HSQL和更新

带有限制的休眠，HSQL和更新

SQLServer 2022-01-01 676
MySQL批量插入或更新

MySQL批量插入或更新

MySQL 2022-01-01 585
使用JRebel 6.0.0进行部署时，在Spring 4.1.2更新之后找不到资源

使用JRebel 6.0.0进行部署时，在Spring 4.1.2更新之后找不到资源

Java 2022-01-01 747
批量插入或使用Hibernate更新？

批量插入或使用Hibernate更新？

其他 2022-01-01 578
MySQL注入-使用SELECT查询进行更新/删除

MySQL注入-使用SELECT查询进行更新/删除

MySQL 2022-01-01 642
JSF / PrimeFaces Ajax更新中断了jQuery事件侦听器功能绑定

JSF / PrimeFaces Ajax更新中断了jQuery事件侦听器功能绑定

JS 2022-01-01 568
mongoose：findOneAndUpdate不返回更新的文档

mongoose：findOneAndUpdate不返回更新的文档

mongodb 2022-01-01 752
如何使用websockets从mysql获取实时通知更新？

如何使用websockets从mysql获取实时通知更新？

MySQL 2022-01-01 544
Session.update和HibernateTemplate.merge进行的Hibernate更新之间的区别

Session.update和HibernateTemplate.merge进行的Hibernate更新之间的区别

其他 2022-01-01 664
具有ON DUPLICATE键更新的MySQL LOAD DATA INFILE

具有ON DUPLICATE键更新的MySQL LOAD DATA INFILE

MySQL 2022-01-01 539
为什么我应该只为更新库而重新编译整个程序？

为什么我应该只为更新库而重新编译整个程序？

其他 2022-01-01 661
MySQL：返回更新的行

MySQL：返回更新的行

MySQL 2022-01-01 536
如何使用单个查询更新两行的交换值

如何使用单个查询更新两行的交换值

其他 2022-01-01 634
如何在Java中更新现有的JSON文件

如何在Java中更新现有的JSON文件

java 2022-01-01 519
当参数不是go中的指针时，使用反射通过引用更新值

当参数不是go中的指针时，使用反射通过引用更新值

Go 2022-01-01 636
检查我的IOS应用程序是否已更新

检查我的IOS应用程序是否已更新

其他 2022-01-01 676
Spring搜索部分更新

Spring搜索部分更新

Java 2022-01-01 532

用新值更新数据框列

撰写回答

推荐问题

分类汇总

您的鼓励是对我最大的支持