扭曲：等待子任务完成

就目前而言，在我看来，这段代码的并行下载数量有限，但是并行解析作业的数量却不受限制。那是故意的吗？我将假设为“ no”，因为如果URL的数量接近无穷大，而您的网络恰好快而解析器却很慢，那么您的内存使用量也会:)。

因此，这将具有有限的并行性，但将通过下载顺序执行解析，而不是：

from twisted.internet import defer, task
from twisted.web.client import getPage

BATCH_SIZE = 5

def main_task(reactor):
    def fetch_urls():
        for url in get_urls():
            yield getPage(url).addCallback(parse)

    coop = task.Cooperator()
    urls = fetch_urls()

    return (defer.DeferredList([coop.coiterate(urls)
                               for _ in xrange(BATCH_SIZE)])
            .addCallback(task_finished))

task.react(main_task)

之所以可以这样做是因为parse（显然）返回了Deferred，将其作为回调添加到所返回的getPage结果中，导致直到完成交易才Deferred调用由所添加的回调。coiterate``parse

自从您问惯用的Twisted代码以来，我还自由地进行了一些现代化（使用task.react而不是手动运行Reactor，内联表达式使内容更简短等）。

如果您确实确实想拥有比并行获取更多的并行解析，那么类似的方法可能会更好：

from twisted.internet import defer, task
from twisted.web.client import getPage

PARALLEL_FETCHES = 5
PARALLEL_PARSES = 10

def main_task(reactor):
    parseSemaphore = defer.DeferredSemaphore(PARALLEL_PARSES)

    def parseWhenReady(r):
        def parallelParse(_):
            parse(r).addBoth(
                lambda result: parseSemaphore.release().addCallback(
                    lambda _: result
                )
            )
        return parseSemaphore.acquire().addCallback(parallelParse)

    def fetch_urls():
        for url in get_urls():
            yield getPage(url).addCallback(parseWhenReady)

    coop = task.Cooperator()
    urls = fetch_urls()

    return (defer.DeferredList([coop.coiterate(urls)
                               for _ in xrange(PARALLEL_FETCHES)])
            .addCallback(lambda done:
                         defer.DeferredList(
                            [parseSemaphore.acquire()
                             for _ in xrange(PARALLEL_PARSES)]
                         ))
            .addCallback(task_finished))

task.react(main_task)

您可以看到parseWhenReadyreturn的Deferred返回值acquire，因此只要并行解析开始就可以继续进行并行提取，因此即使解析器过载，您也不会继续进行任意提取。但是，请parallelParse谨慎地避免Deferred返回由parse或返回的值release，因为随着这些操作的进行，提取应该能够继续进行。

（请注意，由于您最初的示例无法运行，因此我根本没有测试过任何一个。希望即使有错误，意图也很清楚。）

其他 2022/1/1 18:39:35 有484人围观

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节

关注并接收问题和回答的更新提醒

参与内容的编辑和改进，让解决方法与时俱进

请先登录

推荐问题

Python-扭曲，代理和修改内容

Python-扭曲，代理和修改内容

python 2022-01-01 494
扭曲的海螺文件传输

扭曲的海螺文件传输

其他 2022-01-01 456
带websockets和python / django（/扭曲？）

带websockets和python / django（/扭曲？）

python 2022-01-01 442
扭曲过程中的用户交互

扭曲过程中的用户交互

其他 2022-01-01 475
扭曲：使代码无阻塞

扭曲：使代码无阻塞

其他 2022-01-01 459
使用扭曲和试用版启动两个等效的单元测试时，ReactorNotRestartable

使用扭曲和试用版启动两个等效的单元测试时，ReactorNotRestartable

其他 2022-01-01 452
扭曲：等待子任务完成

扭曲：等待子任务完成

其他 2022-01-01 484
扭曲：将ClientFactory连接重新连接到其他服务器

扭曲：将ClientFactory连接重新连接到其他服务器

其他 2022-01-01 471
Python扭曲JSON RPC

Python扭曲JSON RPC

python 2022-01-01 476
如何通过工厂使用扭曲协议发送数据

如何通过工厂使用扭曲协议发送数据

其他 2022-01-01 447
扭曲：推迟发射多次？

扭曲：推迟发射多次？

其他 2022-01-01 475
扭曲：如何在初始连接时识别协议，然后委派给适当的协议实现？

扭曲：如何在初始连接时识别协议，然后委派给适当的协议实现？

其他 2022-01-01 463
具有多处理工人的扭曲的网络客户端？

具有多处理工人的扭曲的网络客户端？

其他 2022-01-01 531
在扭曲中使用我自己的主循环

在扭曲中使用我自己的主循环

其他 2022-01-01 451
C＃异步/等待有/没有等待（即发即忘）

C＃异步/等待有/没有等待（即发即忘）

c# 2022-01-01 848
启动画面等待，直到线程完成

启动画面等待，直到线程完成

其他 2022-01-01 716
依次遍历mongodb游标（在等待回调之前，移至下一个文档）

依次遍历mongodb游标（在等待回调之前，移至下一个文档）

mongodb 2022-01-01 854
C＃等待用户完成在文本框中的键入

C＃等待用户完成在文本框中的键入

c# 2022-01-01 676
如何“等待”回调返回？

如何“等待”回调返回？

其他 2022-01-01 639
通过JS事件加载新页面时，如何使Selenium WebDriver等待页面加载

通过JS事件加载新页面时，如何使Selenium WebDriver等待页面加载

其他 2022-01-01 677
webdriver等待多个元素之一出现

webdriver等待多个元素之一出现

其他 2022-01-01 684
等待表完全使用selenium和python加载

等待表完全使用selenium和python加载

python 2022-01-01 696
selenium-等待网络流量

selenium-等待网络流量

其他 2022-01-01 696
等待量角器/ Webdriver中的页面重定向

等待量角器/ Webdriver中的页面重定向

其他 2022-01-01 672
等待所有答应与bluebird在nodejs中完成

等待所有答应与bluebird在nodejs中完成

Node 2022-01-01 836
等待与task.Result相同的已完成任务？

等待与task.Result相同的已完成任务？

其他 2022-01-01 669
詹金斯（Jenkins）正在重启，请稍候-等待时间长

詹金斯（Jenkins）正在重启，请稍候-等待时间长

其他 2022-01-01 819
如何在elasticsearch中等待重新索引？

如何在elasticsearch中等待重新索引？

其他 2022-01-01 651
我想同时等待文件描述符和互斥体，推荐的方法是什么？

我想同时等待文件描述符和互斥体，推荐的方法是什么？

其他 2022-01-01 732
如何以统一的简单方式使脚本等待/休眠

如何以统一的简单方式使脚本等待/休眠

其他 2022-01-01 736
selenium隐式等待不起作用

selenium隐式等待不起作用

其他 2022-01-01 802
c3p0挂起等待状态可与hibernate一起使用

c3p0挂起等待状态可与hibernate一起使用

其他 2022-01-01 663
Java 等待未来的清单

Java 等待未来的清单

java 2022-01-01 728
为什么Go中的fmt.Scanf不等待用户输入？

为什么Go中的fmt.Scanf不等待用户输入？

Go 2022-01-01 816

扭曲：等待子任务完成

撰写回答

推荐问题

Python-扭曲，代理和修改内容

扭曲的海螺文件传输

带websockets和python / django（/扭曲？）

扭曲过程中的用户交互

扭曲：使代码无阻塞

使用扭曲和试用版启动两个等效的单元测试时，ReactorNotRestartable

扭曲：等待子任务完成

扭曲：将ClientFactory连接重新连接到其他服务器

Python扭曲JSON RPC

如何通过工厂使用扭曲协议发送数据

扭曲：推迟发射多次？

扭曲：如何在初始连接时识别协议，然后委派给适当的协议实现？

具有多处理工人的扭曲的网络客户端？

在扭曲中使用我自己的主循环

C＃异步/等待有/没有等待（即发即忘）

启动画面等待，直到线程完成

依次遍历mongodb游标（在等待回调之前，移至下一个文档）

C＃等待用户完成在文本框中的键入

如何“等待”回调返回？

通过JS事件加载新页面时，如何使Selenium WebDriver等待页面加载

webdriver等待多个元素之一出现

等待表完全使用selenium和python加载

selenium-等待网络流量

等待量角器/ Webdriver中的页面重定向

等待所有答应与bluebird在nodejs中完成

等待与task.Result相同的已完成任务？

詹金斯（Jenkins）正在重启，请稍候-等待时间长

如何在elasticsearch中等待重新索引？

我想同时等待文件描述符和互斥体，推荐的方法是什么？

如何以统一的简单方式使脚本等待/休眠

selenium隐式等待不起作用

c3p0挂起等待状态可与hibernate一起使用

Java 等待未来的清单

为什么Go中的fmt.Scanf不等待用户输入？

分类汇总

您的鼓励是对我最大的支持