-
Notifications
You must be signed in to change notification settings - Fork 1.3k
Open
Description
您好!
我目前在做一个公益性的图书元数据整合项目———人类知识元数据库项目,正在抓取贺州学院图书馆系统(基于 WebOPAC)的图书元数据,想要抓取获取书名、作者、出版社、页数,ISBN号,学科,主题,丛书等书目元数据信息以及馆藏号 | 馆藏地名称 | 索书号 | 文献状态等馆藏记录元信息
用于非商业用途的图书数据分析与整理。
我知道您曾完整爬取豆瓣图书全站数据,技术能力非常强。如果您方便的话,能否指点我一下抓取 WebOPAC 系统元数据的一些关键方法,比如列表页图书链接提取、详情页解析、反爬机制绕过等?
图书馆首页页面:https://szts.hzxy.edu.cn/
搜索页:https://szts.hzxy.edu.cn/opac/searchlist?key=技术&literatureType=1
其中一本书的详情页链接:https://szts.hzxy.edu.cn/opac/bookdetail?id=371418117295286
我非常希望得到您的一点点指导!谢谢您!
祝好,
一位大学生图书数据整理者
Metadata
Metadata
Assignees
Labels
No labels