穆琪的博客

一个程序员的自传

scrapy爬取bootcdn上面的文件【实验】

做了个小实验,去爬取https://www.bootcdn.cn/上面的jss和css文件。框架使用的是scrappy,把文件保存在本地,简单实现了一下跳过重复下载。不多说了,上代码:scrapy的spiders文件夹下的主逻辑文件:代码思路是先使用从bootcdn上的api上下载的所有库名称的文件https://api.bootcdn.cn/names.min.json然后读入一个数组,将爬取范围限定在www.bootcdn.cn下面。然后创建一个下载文件夹组装url后爬取...
继续阅读
搜索
«   2019年11月   »
123
45678910
11121314151617
18192021222324
252627282930
标签列表
控制面板
您好,欢迎到访网站!
  查看权限
友情链接
© 鲁ICP备18041558号
Powered by Z-BlogPHP & Yiwuku.com