利用 Kubernetes,应该可以很轻易地启动一个分布式爬虫任务。而如果将其实现成 crd 的方式,会变得非常 Kubernetes native,有更好的 scalability。可以基于 https://github.com/rmax/scrapy-redis 去尝试 skillset: 熟悉 Kubernetes,熟悉 scrapy,了解 redis