在Elasticsearch Spark中将EPOCH转换为日期

让我们考虑一下DataFrame您的问题中的示例：

scala> val df = workset.select("EVTExit")
// df: org.apache.spark.sql.DataFrame = [EVTExit: date]

scala> df.printSchema
// root
//  |-- EVTExit: date (nullable = true)

您将需要列铸造成一个字符串，并禁用es.mapping.date.rich这是true默认。

该参数定义是为Elasticsearch中的Date字段创建类似Rich Date的对象还是将其作为原语（字符串或long）返回。实际的对象类型基于所使用的库。值得注意的 异常是Map / Reduce，它不提供内置的Date对象，因此无论此设置如何，都会返回LongWritable和Text。

我同意，这是违反直觉的，但是如果您希望elasticsearch不将其转换为long格式，则它是目前唯一的解决方案。这实际上是很痛苦的。

scala> val df2 = df.withColumn("EVTExit_1", $"EVTExit".cast("string"))
// df2: org.apache.spark.sql.DataFrame = [EVTExit: date, EVTExit_1: string]

scala> df2.show
// +----------+----------+
// |   EVTExit| EVTExit_1|
// +----------+----------+
// |2014-06-03|2014-06-03|
// |      null|      null|
// |2012-10-23|2012-10-23|
// |2014-06-03|2014-06-03|
// |2015-11-05|2015-11-05|
// +----------+----------+

现在您可以将数据写入elasticsearch：

scala> df2.write.format("org.elasticsearch.spark.sql").option("es.mapping.date.rich", "false").save("workset/workset1")

现在，让我们检查一下ES上的内容。首先让我们看一下映射：

$ curl -XGET localhost:9200/workset?pretty=true
{
  "workset" : {
    "aliases" : { },
    "mappings" : {
      "workset1" : {
        "properties" : {
          "EVTExit" : {
            "type" : "long"
          },
          "EVTExit_1" : {
            "type" : "date",
            "format" : "strict_date_optional_time||epoch_millis"
          }
        }
      }
    },
    "settings" : {
      "index" : {
        "creation_date" : "1475063310916",
        "number_of_shards" : "5",
        "number_of_replicas" : "1",
        "uuid" : "i3Rb014sSziCmYm9LyIc5A",
        "version" : {
          "created" : "2040099"
        }
      }
    },
    "warmers" : { }
  }
}

看来我们有约会了。现在让我们检查一下内容：

$ curl -XGET localhost:9200/workset/_search?pretty=true -d '{ "size" : 1 }'
{
  "took" : 2,
  "timed_out" : false,
  "_shards" : {
    "total" : 5,
    "successful" : 5,
    "Failed" : 0
  },
  "hits" : {
    "total" : 5,
    "max_score" : 1.0,
    "hits" : [ {
      "_index" : "workset",
      "_type" : "workset1",
      "_id" : "AVdwn-vFWzMbysX5OjMA",
      "_score" : 1.0,
      "_source" : {
        "EVTExit" : 1401746400000,
        "EVTExit_1" : "2014-06-03"
      }
    } ]
  }
}

我将两个字段都保留用于演示目的，但我认为您明白了。

对Elasticsearch 2.4，Spark 1.6.2，scala 2.10和elasticsearch-spark 2.3.2进行了测试spark-shell

$ spark-shell --master local[*] --packages org.elasticsearch:elasticsearch-spark_2.10:2.3.2

与相同的解决方案pyspark：

from pyspark.sql.functions import col
df2 = df.withColumn("EVTExit_1",col("EVTExit").cast("string"))
df2.write.format("org.elasticsearch.spark.sql") \
   .option("es.mapping.date.rich", "false").save("workset/workset1")

其他 2022/1/1 18:16:17 有440人围观

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节

关注并接收问题和回答的更新提醒

参与内容的编辑和改进，让解决方法与时俱进

请先登录

在Elasticsearch Spark中将EPOCH转换为日期

撰写回答

推荐问题

如何在Express中模拟中间件以跳过身份验证以进行单元测试？

如何在Electron.Atom \ WebPack应用程序中使用FS模块？

在Eclipse之外将Spring MVC应用程序部署到tomcat的幕后发生了什么？

Tomcat JDBC连接在Eclipse中有效，但不能独立运行

在Elasticsearch中将字符串的默认映射更改为“未分析”

在Emacs中匹配括号的命令是什么？

在Express中全局重定向所有尾随斜杠

如何使用Java API在Elasticsearch中分析文本？

在Elasticsearch中，如何将时区应用于脚本化日期操作？

如何在elascticsearch中使用日期-直方图聚合显示日期名称

在传递一些上下文时如何在expressjs中重定向？

在Elasticsearch中，多个顶级文档可以共享一个嵌套文档吗？

如何在Elasticsearch中将CURL转换为URI

如何在Entity Framework中使用unsigned int / long类型？

如何在Elasticsearch中排序然后应用限制过滤器

如何在Elasticsearch中按孩子数对父母排序

在Elasticsearch中关闭和关闭节点之间的区别？

所有格_英语词干分析器在Elasticsearch中的使用

在Elasticsearch中创建或更新映射

部署在Elastic Beanstalk Java环境上的Spring Boot应用程序返回502

分类汇总

您的鼓励是对我最大的支持