子文件夹中的Python随机行

为了在所有这些文件上获得适当的随机分布，您需要将它们视为一大行，并随机选择10条。换句话说，您必须至少读取一次所有这些文件，以至少弄清楚 您有多少行 。

但是，您不需要将所有行都保留在内存中。您必须分两个阶段执行此操作：为文件建立索引以计算每个文件中的行数，然后从这些文件中选择10条随机行。

第一次索引：

import os

root_path = r'C:\Tasks\\'
total_lines = 0
file_indices = dict()

# Based on https://stackoverflow.com/q/845058, bufcount function
def linecount(filename, buf_size=1024*1024):
    with open(filename) as f:
        return sum(buf.count('\n') for buf in iter(lambda: f.read(buf_size), ''))

for dirpath, dirnames, filenames in os.walk(root_path):
    for filename in filenames:
         if not filename.endswith('.txt'):
             continue
         path = os.path.join(dirpath, filename)
         file_indices[total_lines] = path
         total_lines += linecount(path)

offsets = list(file_indices.keys())
offsets.sort()

现在我们有了一个偏移量映射，指向文件名和总行数。现在我们选择十个随机索引，并从您的文件中读取这些索引：

import random
import bisect

tasks = list(range(total_lines))
task_indices = random.sample(tasks, 10)

for index in task_indices:
     # find the closest file index
     file_index = offsets[bisect.bisect(offsets, index) - 1]
     path = file_indices[file_index]
     curr_line = file_index
     with open(path) as f:
         while curr_line <= index:
             task = f.readline()
             curr_line += 1
     print(task)
     tasks.remove(index)

注意，只需要索引一次。您可以将结果存储在某处，并且仅在文件更新时才对其进行更新。

还要注意，您的任务现在已“存储”在tasks列表中。这些是文件中各行的索引，在打印所选任务时，将从该变量中删除索引。下次运行random.sample()选项时，以前选择的任务将不再可用于下次选择。如果文件确实发生更改，则此结构将需要更新，因为必须重新计算索引。该file_indices会帮助你完成这项任务，但超出这个答案的范围。:-)

如果您只需要一个 10个项目的样本，请改用Blckknght的解决方案，因为该解决方案只处理一次文件，而我的则需要额外打开10个文件。如果需要_多个_ 样本，则每次需要样本时，此解决方案仅需要额外打开10个文件，就不会再次扫描所有文件。如果文件少于10个，请仍然使用Blckknght的答案。:-)

python 2022/1/1 18:53:02 有319人围观

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节

关注并接收问题和回答的更新提醒

参与内容的编辑和改进，让解决方法与时俱进

请先登录

子文件夹中的Python随机行

撰写回答

推荐问题

向Docker添加一个卷，但不包括一个子文件夹

自动部署在appBase的子文件夹中找到的WAR文件

使用nodejs / mongoose部分更新子文档

如何监视包含所有子文件夹和文件的文件夹？

如何基于通配符匹配递归地找到当前文件夹和子文件夹中的所有文件？

如何使用子文档数组更新MongoDB文档

在Sails.js / api / controllers中创建子文件夹

Spring Boot数据和MongoDB-筛选子文档数组查询

使用Searchkick在ElasticSearch中搜索子文档

带有Railo / tomcat的SES网址具有动态子文件夹

使用mongoose从Mongo中删除子文档

如何在Elasticsearch中搜索具有相同父ID的子文档？

Nginx位置配置（子文件夹）

如何使用MongoDB过滤子文档中的数组

如何使用glob.glob模块搜索子文件夹？

在Python中浏览文件和子文件夹

带有python中子文件夹的ZIP文件夹

从子文件夹导入模块

如何使用python选择仅匹配的mongodb子文档

如何使用POP3检索gmail子文件夹/标签？

分类汇总

您的鼓励是对我最大的支持