1、用scrapy框架编写,抓取试卷及试题
2、相关模块BeautifulSoup4、Pillow、lxml、baidu-aip...
BeautifulSoup4
Pillow
lxml
baidu-aip
3、图片下载,图片文字识别
4、MySQL、Redis、MongoDB数据库存储
5、多管道处理
1、切换到工作目录
cd zujuan
2、运行spider
scrapy crawl `spiderName`