item['Url'] = response.url
然后在数据端把储存url的column设置成unique。
之后在python代码中捕获数据库commit时返回的异常,忽略掉或者转入log中都可以。
网上有说支持增量的,我看了代码+实际测试,还是觉得不是增量的...
我的做法是pipeline的open_spider时读取所有item里面的url,做成一个parsed_urls的list,在rule的process_link中过滤掉这些已经下载的url,如果需要的话可以再item里面加入last_notify属性进一步扩展...
解题步骤:1,利用最后一篇短文听力的问题时间及复合式听写的Directions时间预览整篇文章,锁定1-3个高频词。(高频词很可能在之后三个句子中出现)
2,第一遍放音时:
前八个单词:只写单词的前几个字母,否则会失去听到下个单词的时间。
后三个句子:写出首尾单词,若出现之前锁定的高频词,可只写其大写字母,节省时间。
3, 第二遍放音时:
前八个单词:补全。
后三个句子:补全,听到什么写什么。
4, 第三遍放音时:
前八个单词:补全
后三个单词:继续补全。
5、最后誊写时,检查名词单复数,动词的时态(可根据空格前后的动词时态判断)不会写的形容词或副词放弃名词或动词尽量找替代词进行补全,保证所写句子结构的完整性。
欢迎分享,转载请注明来源:夏雨云
评论列表(0条)