Pandas无法读取在PySpark中创建的实木复合地板文件

由于即使使用较新的pandas版本，这似乎仍然是一个问题，因此我编写了一些函数来规避此问题，这是更大的pyspark helpers库的一部分：

import pandas as pd
import datetime

def read_parquet_folder_as_pandas(path, verbosity=1):
  files = [f for f in os.listdir(path) if f.endswith("parquet")]

  if verbosity > 0:
    print("{} parquet files found. Beginning reading...".format(len(files)), end="")
    start = datetime.datetime.Now()

  df_list = [pd.read_parquet(os.path.join(path, f)) for f in files]
  df = pd.concat(df_list, ignore_index=True)

  if verbosity > 0:
    end = datetime.datetime.Now()
    print(" Finished. Took {}".format(end-start))
  return df


def read_parquet_as_pandas(path, verbosity=1):
  """Workaround for pandas not being able to read folder-style parquet files.
  """
  if os.path.isdir(path):
    if verbosity>1: print("Parquet file is actually folder.")
    return read_parquet_folder_as_pandas(path, verbosity)
  else:
    return pd.read_parquet(path)

这假定拼花地板“文件”中的相关文件（实际上是一个文件夹）以“ .parquet”结尾。这适用于数据砖导出的拼花文件，也可以与其他文件一起使用（未经测试，对评论中的反馈感到高兴）。

read_parquet_as_pandas()如果事先不知道是否为文件夹，则可以使用该功能。

其他 2022/1/1 18:46:51 有370人围观

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节

关注并接收问题和回答的更新提醒

参与内容的编辑和改进，让解决方法与时俱进

请先登录

推荐问题

Jenkins XmlParser报告未找到根节点属性的此类字段

Jenkins XmlParser报告未找到根节点属性的此类字段

其他 2022-01-01 747
Java Import package.* vs import package.SpecificType

Java Import package.* vs import package.SpecificType

java 2022-01-01 894
使用SHA-256和MGF1Padding分解RSA / ECB / OAEP

使用SHA-256和MGF1Padding分解RSA / ECB / OAEP

其他 2022-01-01 1046
pandas.io.json.json_normalize与非常嵌套的json

pandas.io.json.json_normalize与非常嵌套的json

其他 2022-01-01 762
获取“ java.lang.NoClassDefFoundError：com / beust / jcommander / ParameterException”异常

获取“ java.lang.NoClassDefFoundError：com / beust / jcommander / ParameterException”异常

java 2022-01-01 782
Java SE 6中的JPA / Hibernate，用于数据访问的最佳实践

Java SE 6中的JPA / Hibernate，用于数据访问的最佳实践

java 2022-01-01 734
Hibernate工具可以生成JPA POJO吗？

Hibernate工具可以生成JPA POJO吗？

其他 2022-01-01 872
怎么把PascalCase转换成pascal_case？

怎么把PascalCase转换成pascal_case？

其他 2022-01-01 648
如何在Electron.Atom \ WebPack应用程序中使用FS模块？

如何在Electron.Atom \ WebPack应用程序中使用FS模块？

其他 2022-01-01 794
在本地xampp / apache服务器上设置SSL

在本地xampp / apache服务器上设置SSL

其他 2022-01-01 884
在onPause，onStop和onDestroy方法中调用超类方法的正确顺序是什么？为什么？

在onPause，onStop和onDestroy方法中调用超类方法的正确顺序是什么？为什么？

其他 2022-01-01 816
Webpack开发服务器React Content Security Policy错误

Webpack开发服务器React Content Security Policy错误

其他 2022-01-01 677
Spring Data JPA分离实体

Spring Data JPA分离实体

Java 2022-01-01 659
“ -sh：executable_path：未找到”是什么意思

“ -sh：executable_path：未找到”是什么意思

其他 2022-01-01 733
Primefaces DataTable + JPA /休眠分页

Primefaces DataTable + JPA /休眠分页

其他 2022-01-01 686
在具有Docker容器的独立集群上执行Spark SPARK_PUBLIC_DNS和SPARK_LOCAL_IP

在具有Docker容器的独立集群上执行Spark SPARK_PUBLIC_DNS和SPARK_LOCAL_IP

其他 2022-01-01 795
Spring，JPA和Hibernate-如何在没有并发问题的情况下增加计数器

Spring，JPA和Hibernate-如何在没有并发问题的情况下增加计数器

Java 2022-01-01 769
JPA：如何将字符串保留到数据库字段中，键入MYSQL Text

JPA：如何将字符串保留到数据库字段中，键入MYSQL Text

MySQL 2022-01-01 675
apache mysql-3306上的“数据包出现故障”

apache mysql-3306上的“数据包出现故障”

MySQL 2022-01-01 628
Hibernate JPA，MySQL和TinyInt（1）用于布尔值而不是bit或char

Hibernate JPA，MySQL和TinyInt（1）用于布尔值而不是bit或char

MySQL 2022-01-01 820

Pandas无法读取在PySpark中创建的实木复合地板文件

撰写回答

推荐问题

Jenkins XmlParser报告未找到根节点属性的此类字段

Java Import package.* vs import package.SpecificType

使用SHA-256和MGF1Padding分解RSA / ECB / OAEP

pandas.io.json.json_normalize与非常嵌套的json

获取“ java.lang.NoClassDefFoundError：com / beust / jcommander / ParameterException”异常

Java SE 6中的JPA / Hibernate，用于数据访问的最佳实践

Hibernate工具可以生成JPA POJO吗？

怎么把PascalCase转换成pascal_case？

如何在Electron.Atom \ WebPack应用程序中使用FS模块？

在本地xampp / apache服务器上设置SSL

在onPause，onStop和onDestroy方法中调用超类方法的正确顺序是什么？为什么？

Webpack开发服务器React Content Security Policy错误

Spring Data JPA分离实体

“ -sh：executable_path：未找到”是什么意思

Primefaces DataTable + JPA /休眠分页

在具有Docker容器的独立集群上执行Spark SPARK_PUBLIC_DNS和SPARK_LOCAL_IP

Spring，JPA和Hibernate-如何在没有并发问题的情况下增加计数器

JPA：如何将字符串保留到数据库字段中，键入MYSQL Text

apache mysql-3306上的“数据包出现故障”

Hibernate JPA，MySQL和TinyInt（1）用于布尔值而不是bit或char

分类汇总

您的鼓励是对我最大的支持