腾讯云服务器做网站,网站开发我们都能解决,wordpress options,wordpress上篇下篇代码bookroo网页上有很多不错的英文图书书目。比如这个关于儿童花样滑冰的书单#xff1a;
https://bookroo.com/explore/books/topics/ice-skating 怎么批量下载下来呢#xff1f;
这个网页是动态网页#xff0c;要爬取下来比较麻烦#xff0c;可以先查看源代码#xff0c;…bookroo网页上有很多不错的英文图书书目。比如这个关于儿童花样滑冰的书单
https://bookroo.com/explore/books/topics/ice-skating 怎么批量下载下来呢
这个网页是动态网页要爬取下来比较麻烦可以先查看源代码然后把源代码保存到本地e盘DOCTYPE html.htm
打开这个源代码文件 仔细看书籍信息在json对象里面 问ChatGPT如何提取这些书籍名称
如何从以上网页源代码中提取出title的内容比如提取出title:Mice Skating、title:Flora and the Penguin中的Mice Skating、Flora and the Penguin
ChatGPT的回复
你的问题描述中的内容看起来像是一段JSON格式的数据而不是HTML源代码。这是一个JSON对象其中包含一个books的列表每个列表项又是一个包含各种属性包括title的字典。
为了提取title的内容你可以首先将这个JSON字符串转换为Python的数据结构然后遍历books列表提取每个书籍的title。以下是一个例子
import json
# 这是你的JSON字符串。我已经将其稍微清理过了。
json_str
{
props: {
pageProps: {
initialData: {
pages: [
{
books: [
{
title: Flora and the Penguin,
...
},
{
title: Mice Skating,
...
},
...
]
}
]
}
}
}
} # 将JSON字符串转为Python数据结构
data json.loads(json_str)
# 遍历books列表
for page in data[props][pageProps][initialData][pages]:
for book in page[books]:
# 提取并打印title
print(book[title])
注意我在JSON字符串中使用了省略号...来表示你的原始数据中还有更多的内容。在实际使用中你应该用你的完整的JSON字符串替换json_str的值。
将所有的JSON字符串复制到json_str 里面运行程序成功获取到页面的所有图书名称