怎么做网站优化 s,wordpress百度云加速插件,网站开发软件系统,昆明房产网站建设今天本来想把昨天安装的intellij配置好#xff0c;但是一直显示没有网络#xff0c;网上查了相关资料也没有查出来解决办法。然后暂停了intellij的配置#xff0c;开始做了几个Python爬取简单数据的实例#xff0c;先做了几个最简单的#xff0c;以后再加大难度#xff0…今天本来想把昨天安装的intellij配置好但是一直显示没有网络网上查了相关资料也没有查出来解决办法。然后暂停了intellij的配置开始做了几个Python爬取简单数据的实例先做了几个最简单的以后再加大难度用idle编码
1京东商品页面爬取
链接https://item.jd.com/2967929.html代码解析
首先r是一个response对象
r.status_code返回一个值如果是200的话则正常如果时候503的话则抛出异常调用该方法的目的是查看返回的response对象是否正确
r.encoding是返回编码信息如果编码为gbk则表示这个网站提供了页面信息的相关编码
2亚马逊商品页面的爬取r.status_code返回值为503说明请求没有得到正确的答复这时查看我们访问的http的头可知我们告诉了亚马逊网站我们是用Python的requests库来访问的并且亚马逊拒绝了爬虫的访问所以这时我们更改了我们的头部信息让爬虫模拟一个浏览器来访问把user-agent更改为Mozolla/5.0就可以成功的访问了。
3百度搜索关键词提交百度对关键词的搜索提供了接口http://www.baidu.com/s?wdkeyword。所以这时利用了params将键字对输入进去但是这里当我查询url时并没有正常显示百度利用安全认证我把http的头部更改为Mozilla/5.0也不起作用还未解决。
4网络图片的爬取和存储只适用于最简单的图片爬取如https://gss2.bdstatic.com/fo3dSag_xI4khGkpoWK1HF6hhy/baike/c0%3Dbaike80%2C5%2C5%2C80%2C26/signc9162213c4fcc3cea0cdc161f32cbded/279759ee3d6d55fb3cfdd81761224f4a20a4ddcc.jpg。
结尾是图片文件的形式r.content是返回内容的二进制形式所以用write方法写入文件中形成jpg文件。open函数中的‘wb’是指打开文件的模式相关模式含义如下表