在Javascript中抓取数据

已经准备好以json格式存储所需的所有数据。

Scrapy shell在编写蜘蛛程序之前提供了一个非常方便思想者访问网站的命令：

$ scrapy shell https://www.mcdonalds.com.sg/locate-us/
2013-09-27 00:44:14-0400 [scrapy] INFO: Scrapy 0.16.5 started (bot: scrapybot)
...

In [1]: from scrapy.http import FormRequest

In [2]: url = 'https://www.mcdonalds.com.sg/wp-admin/admin-ajax.PHP'

In [3]: payload = {'action': 'ws_search_store_location', 'store_name':'0', 'store_area':'0', 'store_type':'0'}

In [4]: req = FormRequest(url, formdata=payload)

In [5]: fetch(req)
2013-09-27 00:45:13-0400 [default] DEBUG: Crawled (200) <POST https://www.mcdonalds.com.sg/wp-admin/admin-ajax.PHP> (referer: None)
...

In [6]: import json

In [7]: data = json.loads(response.body)

In [8]: len(data['stores']['listing'])
Out[8]: 127

In [9]: data['stores']['listing'][0]
Out[9]: 
{u'address': u'678A Woodlands Avenue 6<br/>#01-05<br/>Singapore 731678',
 u'city': u'Singapore',
 u'id': 78,
 u'lat': u'1.440409',
 u'lon': u'103.801489',
 u'name': u"McDonald's Admiralty",
 u'op_hours': u'24 hours<br>\r\nDessert Kiosk: 0900-0100',
 u'phone': u'68940513',
 u'region': u'north',
 u'type': [u'24hrs', u'dessert_kiosk'],
 u'zip': u'731678'}

简而言之：在你的Spider中，你必须返回FormRequest(...)上面的内容，然后在回调中从中加载json对象response.body，最后为列表中每个商店的数据data['stores']['listing']创建一个具有所需值的项目。

像这样：

class McDonaldSpider(BaseSpider):
    name = "mcdonalds"
    allowed_domains = ["mcdonalds.com.sg"]
    start_urls = ["https://www.mcdonalds.com.sg/locate-us/"]

    def parse(self, response):
        # This receives the response from the start url. But we don't do anything with it.
        url = 'https://www.mcdonalds.com.sg/wp-admin/admin-ajax.PHP'
        payload = {'action': 'ws_search_store_location', 'store_name':'0', 'store_area':'0', 'store_type':'0'}
        return FormRequest(url, formdata=payload, callback=self.parse_stores)

    def parse_stores(self, response):
        data = json.loads(response.body)
        for store in data['stores']['listing']:
            yield McDonaldsItem(name=store['name'], address=store['address'])

javascript 2022/1/1 18:18:44 有364人围观

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节

关注并接收问题和回答的更新提醒

参与内容的编辑和改进，让解决方法与时俱进

请先登录

在Javascript中抓取数据

撰写回答

推荐问题

如何在JavaScript中将浮点数转换为整数？

在Jenkins API中，有没有办法找到上一个版本的git commit？

在JavaScript中删除数组元素-Delete与Splice

在Spring Boot中，如何在JSON中抛出异常

如何在JSP页面的选项标签上使用onClick（）或onSelect（）？

如何在JavaScript中将字符串转换为布尔值？

同步静态方法在Java中如何工作？

如何在JSON中使用if语句？

如何在Java中打开txt文件并读取数字

在Jenkins中设置特定的Python

在Jsp中解释动态属性时出现问题

为什么无法在Java中扩展注释？

在jsp页面中显示jfreechart

您在Java中建议使用哪种HTML解析库？

在JMeter 5.0中从Scheduler中删除了Start Time和End Time

如何在Java中将括号内的字符串（嵌套）匹配？

在Java中获取登录用户名

国际化如何在JavaScript中起作用？

如何在JavaScript中按类获取元素？

在JavaScript中定义枚举的首选语法是什么？

分类汇总

您的鼓励是对我最大的支持