Skip to content

感谢制作了这样一个爬虫 #3

@ghost

Description

解决了从无到有的问题,真心感谢一个!

目前看有三个问题:

  1. 较长的图片会被隔页分割
    screen shot 2018-06-29 at 5 01 04 pm
  2. 图片中较小的文字完全无法看清
    screen shot 2018-06-29 at 5 01 41 pm
  3. 抓取到15页就没了,日期是3月20日,当日后面还有别的互动。

其中,我在想,问题1、2能否用html方式解决,因为PDF里面图片是死的,有些圈子里分享的还是文件格式。HTML的话,一方面图片可以用fancybox插件放缩,另一方面其他格式文件可以以链接形式附上。我看到中间你也是用生成HTML进行过渡的,但这么一来,可能这就涉及到最后怎么整合的问题,我想能不能用Gitbook或类似的东西进行封装?

谢谢!

Metadata

Metadata

Assignees

No one assigned

    Labels

    bugSomething isn't working

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions