导购网站怎么建立,离婚协议书模板 完整版,上海网页制作,做房产网站在百度推广推广费大家好#xff0c;我是明月十四桥#xff01; 擅长领域#xff1a;python黑科技、大数据后端研发、数据仓库 今日重点#xff1a; ① 学会使用python 获取各种网站的ppt#xff0c;可见即可爬#xff1b; ② 中国数据库大会一年一届#xff0c;门票昂贵#xff0c;干货… 大家好我是明月十四桥 擅长领域python黑科技、大数据后端研发、数据仓库 今日重点 ① 学会使用python 获取各种网站的ppt可见即可爬 ② 中国数据库大会一年一届门票昂贵干货满满文末资料包值得深入学习。 呕心沥血白天工作晚上写文建议收藏实操有问题欢迎评论或加微信咨询 【中国数据库大会】
中国数据库大会秉承一贯的干货分享和实践指导原则历经十年的积累与沉淀如今的DTCC已然成为国内数据库领域的技术风向标见证了整个行业的发展与演变。
2020年12月21日~12月23日由 IT168 旗下 ITPUB 企业社区平台主办的第十一届中国数据库技术大会DTCC2020将在北京隆重召开。大会以“架构革新 高效可控”为主题设置2大主会场20技术专场将邀请超百位行业专家重点围绕数据架构、AI与大数据、传统企业数据库实践和国产开源数据库等内容展开分享和探讨为广大数据领域从业人士提供一场年度盛会和交流平台。 【小编动机】
官方只提供了预览的方式无法完美的欣赏这么干货满满、制作精良的ppt。
对于求知欲强烈的桥哥来说简直太难受了于是便写了个程序一键获取所有ppt并送给可爱的粉丝们。 中国数据库大会链接http://dtcc.it168.com/
涉及技术数据架构、大数据、数据库、云、数据治理
【下载代码】
软件环境python 3 # encoding: utf-8
from bs4 import BeautifulSoup
import requests
from urllib.request import urlopen
import re
import jsondef visit(url):headers {User-Agent: Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; WOW64; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; InfoPath.3),accept: application/json, text/javascript, */*; q0.01,accept-encoding: gzip, deflate, br,accept-language: zh-CN,zh;q0.9,content-type: application/x-www-form-urlencoded; charsetUTF-8,cookie: , -- 填自己的referer: ,sec-fetch-dest: document,sec-fetch-mode: navigate,sec-fetch-site: same-origin,}res requests.get(url,headersheaders)bsObj BeautifulSoup(res.text, html.parser)return bsObjdef visit_homepage(url):bsObj visit(url)content bsObj.find(div, class_content)content_list content.select(p)category []for i in range(4,len(content_list)):try:urls content_list[i].a[href]name content_list[i].get_text(|).split(|)[0].replace( ,).replace(\xa0,)category.append([name,urls])except:passprint(category)return categorydef download_pdf(conf,path):category_name conf[0]category_url conf[1]bsObj visit(category_url)res re.search(r(.*)token:(.*?),,str(bsObj) ,re.M|re.I)token res.group(2).replace(,).replace( ,)arts re.findall(r(.*)li data-docinfo(.*?)},str(bsObj) ,re.M|re.I)for art in arts:art_str {str(art).split({)[1].replace(),})art_dic json.loads(art_str)id art_dic[id]name art_dic[name]download_url https://api.z.itpub.net/download/file?st-usertoken%sid%s%(token,str(id))print(download_url)data urlopen(download_url).read()with open(pathcategory_name__name, wb) as f:f.write(data)print(finish download )if __name__ __main__:homepage https://z.itpub.net/article/detail/5260C494873379BAA63BAB7C5CBD7A95path /Users/xxx/Downloads/DTCC/# downloadcategory visit_homepage(homepage)for i in category:download_pdf(i,path)【效果展示】 【下载方法】
桥哥为大家提供了两种获取ppt的方式
1、python爬虫获取
需进行这两步操作
1cookie换成自己的 获取cookie办法打开开发者模式windows F12mac optcommandi 打开开发者模式访问homepagenetwork里面有cookie。
2修改path为自己的目录
ps.注意不要频繁访问该网站给对方网站造成压力 2、网盘下载
桥哥也把ppt放在了csdn网盘下载链接
链接: https://download.csdn.net/download/weixin_39032019/19147554 我是桥哥专注分享大数据知识体系 Python黑科技。 求点赞、求评论、求收藏 CSDN官方学习推荐 ↓ ↓ ↓
为了帮助更多小白从零进阶从CSDN官方那边搞来了一套 《Python 工程师学习成长知识图谱》尺寸 870mm x 560mm展开后有一张办公桌大小也可以折叠成一本书的尺寸有兴趣的小伙伴可以了解一下当然不管怎样博主的文章一直都是免费的~ 【推荐阅读】
数据仓库专栏数仓方法论、实战经验、面试真题 https://blog.csdn.net/weixin_39032019/category_8871528.html
Python专栏Python黑科技爬虫、算法、小工具 https://blog.csdn.net/weixin_39032019/category_8974792.html
大数据集锦专栏面试真题、开发经验、调优策略 https://blog.csdn.net/weixin_39032019/category_11048805.html