我不使用机械化,但是我在网上做了很多使用python抓取自己的事情。
当我遇到诸如__doPostBack之类的javascript函数时,我将执行以下操作: 我访问Firefox中的网站,并使用HttpFox扩展名来查看单击相关链接时浏览器发送到Web服务器的POST请求的参数。 然后,我使用urllib.parse.urlencode在python中构建相同的请求,以构建所需的查询字符串和POST数据。 有时网站也使用cookie,因此我只使用python的http.cookiejar。
我已经成功地使用了这种技术几次。