×

python

scrapy爬取bootcdn上面的文件【实验】

穆琪 穆琪 发表于2019-11-17 浏览472 评论0
做了个小实验,去爬取https://www.bootcdn.cn/上面的jss和css文件。框架使用的是scrappy,把文件保存在本地,简单实现了一下跳过重复下载。不多说了,上代码:scrapy的spiders文件夹下的主逻辑文件:代码思路是先使用从bootcdn上的api上下载的所有库名称的文件https://api.bootcdn.cn/names.min.json然后读入一个数组,将爬取范围限定在www.bootcdn.cn下面。然后创建一个下载文件夹组装url后爬取改库页面下的所有文件