scrapy爬虫
by zupeng zhang
1. 1. 如何使用celery特性,能够只执行和调度根据一定选择规则选取的spider 2. 为了将来对每一个spider进行分析,如何跟好的保存每一个spider执行的结果,如有多少个item没入库,原因是什么?有多少个异常...
2. scrapy服务例程 scrapyd
2.1. website
2.2. 特征
2.3. 1. 可以管理多个项目及多个版本
2.4. 2. 监听要求spiders运行的请求并为每一个spider生成(spawn)一个进程
3. scrapy开发框架twisted
3.1. 入门的中文教程 http://blog.sina.com.cn/s/blog_704b6af70100py9n.html
3.2. 精道的简介 http://blog.csdn.net/hanhuili/article/details/9389433
3.3. 中文文档 https://contrib.exoweb.net/wiki/TwistedDocZh
3.4. spawProcess使用 http://wiki.woodpecker.org.cn/moin/PyTwisted/LowLevelNetworkingEventLoop/LLNEL6
4. 参考内容
4.1. 官网 http://www.scrapy.org/
4.2. http://www.scrapinghub.com/
5. 调度系统 celery
5.1. Application
5.2. Tasks
5.3. Calling Tasks
5.4. Canvas
5.5. Workers guide
5.6. Periodic Tasks
5.7. Routing Tasks
5.8. Monitoring and Management Guide
5.9. Signals
5.10. websites
5.10.1. wiki https://github.com/celery/celery/wiki
5.10.2. forum https://groups.google.com/forum/#!forum/celery-users
5.10.3. user guide http://docs.celeryproject.org/en/latest/userguide/application.html
5.10.4. update website http://www.celeryproject.org/news/
5.10.5. djcelery update website https://github.com/celery/django-celery/blob/master/Changelog
5.11. Brokers
5.11.1. RabbitMQ
5.11.1.1. web监听及管理
5.12. web监听和管理工具
5.12.1. flower
5.12.2. jobtastic
5.13. Note
5.13.1. 1. celery 3.0 always uses UTC, 所以在使用celery3.0的时候要注意时间问题
6. 监测系统
6.1. 各种监测工具比较
6.2. 个人观点的比较
6.3. 实时图像系统 graphite
6.3.1. 结构描述
6.3.2. 更好的基于graphite前端呈现工具
6.3.3. 日志分析并通过graphite呈现工具
6.3.4. 其他域graphite相关的工具列表
6.3.5. graphite教程