Skip to content

[请求技术指导] 如何抓取贺州学院图书馆(WebOPAC系统)的图书元数据? #29

@Anna-Archive

Description

@Anna-Archive

您好!

我目前在做一个公益性的图书元数据整合项目———人类知识元数据库项目,正在抓取贺州学院图书馆系统(基于 WebOPAC)的图书元数据,想要抓取获取书名、作者、出版社、页数,ISBN号,学科,主题,丛书等书目元数据信息以及馆藏号 | 馆藏地名称 | 索书号 | 文献状态等馆藏记录元信息
用于非商业用途的图书数据分析与整理。

我知道您曾完整爬取豆瓣图书全站数据,技术能力非常强。如果您方便的话,能否指点我一下抓取 WebOPAC 系统元数据的一些关键方法,比如列表页图书链接提取、详情页解析、反爬机制绕过等?

图书馆首页页面:https://szts.hzxy.edu.cn/
搜索页:https://szts.hzxy.edu.cn/opac/searchlist?key=技术&literatureType=1
其中一本书的详情页链接:https://szts.hzxy.edu.cn/opac/bookdetail?id=371418117295286

我非常希望得到您的一点点指导!谢谢您!

祝好,
一位大学生图书数据整理者

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions