2019年11月 - 穆琪的博客

欢迎光临，有什么想法就留言告诉我吧！

你的精彩评论可能会出现在这里哦！留言抢沙发

做了个小实验，去爬取https://www.bootcdn.cn/上面的jss和css文件。框架使用的是scrappy，把文件保存在本地，简单实现了一下跳过重复下载。不多说了，上代码：scrapy的spiders文件夹下的主逻辑文件：代码思路是先使用从bootcdn上的api上下载的所有库名称的文件https://api.bootcdn.cn/names.min.json然后读入一个数组，将爬取范围限定在www.bootcdn.cn下面。然后创建一个下载文件夹组装url后爬取改库页面下的所有文件

« 2019年11月 »
一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30

站点信息

文章总数:177
页面总数:1
分类总数:10
标签总数:0
评论总数:0
浏览总数:90314

网站分类

java 2
CBoard 6
python 36
pycharm教程 12
操作系统 47
杂项 16
网络安全 1
树莓派+Arduino 15
数据库 17
摄影 1

穆琪的博客

Hello，World

欢迎光临，有什么想法就留言告诉我吧！

python

scrapy爬取bootcdn上面的文件【实验】

穆琪 发表于2019-11-17 浏览472 评论0

Hello，World

欢迎光临，有什么想法就留言告诉我吧！

python

scrapy爬取bootcdn上面的文件【实验】

穆琪 发表于2019-11-17 浏览472 评论0

穆琪发表于2019-11-17 浏览472 评论0