网站公司备案,白云做网站要多少钱,怎样能在百度上搜索到自己的店铺,网站开发人员需要去做原型吗这次都是一些纯语言的表达#xff0c;可能会有点啰嗦#xff0c;或者有点枯燥#xff0c;也是对爬虫的一些小小的见解#xff0c;可能只是一些常见话#xff0c;哈哈#xff0c;还是耐心的写完。网络爬虫的整体执行流程#xff1a;1)确定一个(多个)种子网页2)进行数据内…这次都是一些纯语言的表达可能会有点啰嗦或者有点枯燥也是对爬虫的一些小小的见解可能只是一些常见话哈哈还是耐心的写完。网络爬虫的整体执行流程1)确定一个(多个)种子网页2)进行数据内容的提取3)将网页中的关联网页链接进行提取出来4)将尚未爬去的关联网页内容放入到一个队列中5)从队列中取出一个待爬去的页面判断之前是否爬过6)把没有爬过的内容进行爬取并进行之前的重复操作7)直到队列中没有新的内容爬虫执行结束跳 动 舞 蹈这样进行爬虫时一般会有一些概念必须知道的广度优先遍历指网络爬虫会先抓取起始网页中链接的所有网页然后选择其中的一种链接网页继续抓取在此网页中的链接的所有网页。这个方法最常用也可以进行网络爬虫并行处理提高爬去数据效率。广度优先遍历就是像金字塔一样首先抓取第一层数据作为种子节点然后遍历第二层数据接着遍历第三层数据等等以此类推从一个已知的种子链接开始宽度的遍历网页为了知道哪些网页可以进行抓取需要将新发现的网页存储到一个URL队列中使用ArrayDeque实现一个队列为了避免重复访问一个网址需要将遍历过的网页URL存入到历史表中使用HashSet实现这个历史表。如果使用Queue来实现ToDo,则对每一个增加到ToDo的元素都需要进行对象封装因为ArrayQueue底层采用数组实现所以增加到ArrayQueue的元素不需要对象封装ArrayDeque性能比Queue更好所以todo采用ArrayDeque实现。在爬虫需要注意的一些事项1分任务分包时有可能出现线程安全问题2数据重复问题3频率控制问题(尽量不要过快有可能被发爬虫干掉)4对象的创建和销毁问题5没有考虑到的所有问题如感觉不错点击“好看”