当前位置: 首页 > news >正文

要加强县门户网站的建设管理深圳保障性住房多少钱一平米

要加强县门户网站的建设管理,深圳保障性住房多少钱一平米,著名咨询公司有哪些,建网站收费多少钱题目 链接 爬虫往往不能在一个页面里面获取全部想要的数据#xff0c;需要访问大量的网页才能够完成任务。 这里有一个网站#xff0c;还是求所有数字的和#xff0c;只是这次分了1000页。 思路 找到调用接口 可以看到后面有个参数page来控制页码 代码实现 import reques…题目 链接 爬虫往往不能在一个页面里面获取全部想要的数据需要访问大量的网页才能够完成任务。 这里有一个网站还是求所有数字的和只是这次分了1000页。 思路 找到调用接口 可以看到后面有个参数page来控制页码 代码实现 import requests import reurl http://www.glidedsky.com/level/web/crawler-basic-2headers {User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36 Edg/89.0.774.54,Cookie: }res 0 for i in range(1, 1001):temp_url url ?page str(i)response requests.get(temp_url, headersheaders)html response.textpattern re.compile(div classcol-md-1.*?(\d).*?/div, re.S)n_list re.findall(pattern, html)for n in n_list:res int(n)print(fResult: {res})使用多线程实现更快爬取 import requests import re import threadingurl http://www.glidedsky.com/level/web/crawler-basic-2 total_threads 10 # 设置线程数量 lock threading.Lock() # 创建一个锁用于线程间的数据同步 res 0def worker(thread_id):global resfor i in range(thread_id, 1001, total_threads):temp_url url ?page str(i)response requests.get(temp_url, headersheaders)html response.textpattern re.compile(div classcol-md-1.*?(\d).*?/div, re.S)n_list re.findall(pattern, html)with lock:for n in n_list:res int(n)threads [] headers {User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36 Edg/89.0.774.54,Cookie: }# 创建并启动线程 for i in range(total_threads):thread threading.Thread(targetworker, args(i,))thread.start()threads.append(thread)# 等待所有线程执行完成 for thread in threads:thread.join()print(fResult: {res})使用异步函数 import aiohttp import asyncio import reurl http://www.glidedsky.com/level/web/crawler-basic-2 total_requests 1000 # 总共地请求次数 concurrent_requests 10 # 同时并发的请求数量 res 0headers {User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36 Edg/89.0.774.54,Cookie: }async def fetch_url(session, temp_url):async with session.get(temp_url, headersheaders) as response:html await response.text()pattern re.compile(div classcol-md-1.*?(\d).*?/div, re.S)n_list re.findall(pattern, html)return [int(n) for n in n_list]async def main():async with aiohttp.ClientSession() as session:tasks []for i in range(1, total_requests 1):temp_url url ?page str(i)tasks.append(fetch_url(session, temp_url))if len(tasks) concurrent_requests or i total_requests:results await asyncio.gather(*tasks)for n_list in results:for n in n_list:global resres ntasks []loop asyncio.get_event_loop() loop.run_until_complete(main())print(fResult: {res})时间统计同步的方式大概80s多线程和异步时间差不多都是20s左右
http://www.yutouwan.com/news/485713/

相关文章:

  • 广州网站优化流程建设银行长清网站
  • 找建设企业网站公司php网站后台密码忘记
  • 云南建设厅网站公示岳阳市内从事网站建设的公司
  • 陕西煤炭建设公司网站wordpress top0.9主题
  • 虚拟空间能建多个网站套模板的网站
  • 学习教建网站湖北平台网站建设哪家好
  • 蜜雪冰城推广软文东莞优化seo网站关键词优化
  • wordpress成品网站免费做装修的推广网站有那种
  • 网页设计网站建设专业现状怎样建设传奇网站空间
  • 江西城乡住房建设网站网页版微信二维码几分钟失效
  • 高端响应式网站设计快速整站排名seo教程
  • 工作室取名网站做优化好还是推广好
  • 做网站还需要买空间吗商务网站安全方案设计
  • 晋城做网站怎么样子做网站
  • 子网站数量wordpress兼容html
  • 青岛+网站建设seo网站建设
  • 可以申请做cpa广告的网站秦皇岛城乡建设局
  • 专门做旅游的网站惠州seo外包v1
  • 淘宝网站做淘宝客群晖 卸载wordpress
  • 网站被跳转怎么办最佳的资源搜索引擎
  • 网站建设的开发方法有哪些上海高端网站定制开发
  • 贵州域网网站建设网络编程和网站建设联系
  • 郑州网站建设qicaizz搜索引擎优化完整过程
  • 2个淘宝可以做情侣网站么长沙点看网络科技有限公司
  • 房屋 哪个网站做的最好官网网站建设收费
  • 兰州做网站哪家专业iis7建设网站
  • 南宁手机建站模板安丘市住房与城市建设路网站
  • 上海网站关键词河南郑州网站顾问
  • 用dedecms做的网站是模板网站么可以做游戏广告的网站
  • 织梦如何做二级网站廊坊网站建设品牌