当前位置: 首页 > news >正文

建设银行国际互联网网站笔记本做网站要什么好

建设银行国际互联网网站,笔记本做网站要什么好,怎么建设小型网站,网站建设的基本规范有什么HTML文档是互联网上的主要文档类型#xff0c;但还存在如TXT、WORD、excel、PDF、csv等多种类型的文档。网络爬虫不仅需要能够抓取HTML中的敏感信息#xff0c;也需要有抓取其他类型文档的能力。下面简要记录一些个人已知的基于python3的抓取方法#xff0c;以备查阅。1.抓取…HTML文档是互联网上的主要文档类型但还存在如TXT、WORD、excel、PDF、csv等多种类型的文档。网络爬虫不仅需要能够抓取HTML中的敏感信息也需要有抓取其他类型文档的能力。下面简要记录一些个人已知的基于python3的抓取方法以备查阅。1.抓取TXT文档在python3下常用方法是使用urllib.request.urlopen方法直接获取。之后利用正则表达式等方式进行敏感词检索。 ### Reading TXT doc ###from urllib.request import urlopenfrom urllib.error import URLError,HTTPErrorimport retry:textPage urlopen(http://www.pythonscraping.com/pages/warandpeace/chapter1.txt)except (URLError,HTTPError) as e:print(Errors:\n)print(e)#print(textPage.read())text str(textPage.read())#下面方法用正则匹配含1805的句子pattern re.compile(\..*1805(\w|,|\s|-)*(\.))#不完美简单示例match pattern.search(text)if match is not None:print(match.group())#下面方法不用正则。先用.将句集分片之后就可遍历了。ss text.split(.)key_words 1805words_list [x.lower() for x in key_words.split()]for item in ss:if all([word in item.lower() and True or False for word in words_list]):print(item)上面的方法是已知目标网页为txt文本时的抓取。事实上在自动抓取网页时必须考虑目标网页是否为纯文本用何种编码等问题。如果只是编码问题可以简单使用print(textPage.read(),utf-8)等python字符处理方法来解决如果抓取的是某个HTML最好先分析例如 from urllib.request import urlopenfrom urllib.error import URLError,HTTPErrorfrom bs4 import BeautifulSouptry:html urlopen(https://en.wikipedia.org/wiki/Python_(programming_language))except (URLError,HTTPError) as e:print(e)try:bsObj BeautifulSoup(html,html.parser)content bsObj.find(div,{id:mw-content-text}).get_text()except AttributeError as e:print(e)meta bsObj.find(meta)#print(bsObj)if meta.attrs[charset] UTF-8:content bytes(content,UTF-8)print(-----------------UTF-8--------------)print(content.decode(UTF-8))if meta.attrs[charset] iso-8859-1:content bytes(content,iso-8859-1)print(--------------iso-8859-1------------)print(content.decode(iso-8859-1))2.抓取CSV文档CSV文件是一种常见的数据存档文件与TXT文档基本类似但在内容组织上有一定格式文件的首行为标题列之后的文件中的每一行表示一个数据记录。这就像一个二维数据表或EXCEL表格一样。 python3中包含一个csv解析库可用于读写csv文件但其读取目标一般要求是在本地要读取远程网络上的csv文件需要用urllib.request.urlopen先获取。例如 #csv远程获取内存加载读取from urllib.request import urlopenimport csvfrom io import StringIO#在内存中读写str如果要操作二进制数据就需要使用BytesIOtry:data urlopen(http://pythonscraping.com/files/MontyPythonAlbums.csv).read().decode(ascii,ignore)except (URLError,HTTPError) as e:print(Errors:\n)print(e)dataFile StringIO(data)csvReader csv.reader(dataFile)count 0for row in csvReader:if count 10:print(row)else:print(...\n...)breakcount 1#将数据写入本地csv文件with open(./localtmp.csv,wt,newline,encodingutf-8) as localcsvfile:writer csv.writer(localcsvfile)count 0try:for row in csvReader:if count 10:writer.writerow(row)else:breakcount 1finally:localcsvfile.close()csv文档的标题行(首行)需要特殊处理csv.DictReader可以很好的解决这个问题。DictReader将读取的行转换为python字典对象而不是列表。标题行的各列名即为字典的键名。 #csv.DictReader读取csv文件可以有效处理标题行等问题from urllib.request import urlopenimport csvfrom io import StringIO#在内存中读写str如果要操作二进制数据就需要使用BytesIOtry:data urlopen(http://pythonscraping.com/files/MontyPythonAlbums.csv).read().decode(ascii,ignore)except (URLError,HTTPError) as e:print(Errors:\n)print(e)dataFile StringIO(data)csvReader csv.reader(dataFile)dictReader csv.DictReader(dataFile)print(dictReader.fieldnames)count 0for row in dictReader:if count 10:print(row)else:print(...\n...)breakcount 13.抓取PDF文档pdf文档的远程抓取与操作可借助比较流行的pdfminer3k库来完成。 #抓取并操作pdf#pdf READ operationfrom urllib.request import urlopenfrom pdfminer.pdfinterp import PDFResourceManager,process_pdffrom pdfminer.converter import TextConverterfrom pdfminer.layout import LAParamsfrom io import StringIO,opendef readPDF(filename):resmgr PDFResourceManager()#STEP 1retstr StringIO()#STEP 2laparams LAParams()#STEP 3device TextConverter(resmgr,retstr,laparamslaparams)#STEP 4process_pdf(resmgr,device,filename)#STEP 5device.close()#STEP 6content retstr.getvalue()retstr.close()return contenttry:pdffile urlopen(http://www.fit.vutbr.cz/research/groups/speech/servite/2010/rnnlm_mikolov.pdf)except (URLError,HTTPError) as e:print(Errors:\n)print(e)outputString readPDF(pdffile)#也可以读取由pdffileopen(../../readme.pdf)语句打开的本地文件。print(outputString)pdffile.close()4.抓取WORD老版word使用了二进制格式后缀名为.docword2007后出现了与OPEN OFFICE类似的类XML格式文档后缀名为.docx。python对word文档的支持不够似乎没有完美解决方案。为读取docx内容可以使用以下方法(1)利用urlopen抓取远程word docx文件(2)将其转换为内存字节流(3)解压缩(docx是压缩后文件)(4)将解压后文件作为xml读取(5)寻找xml中的标签(正文内容)并处理 #读取word docx文档内容from zipfile import ZipFilefrom urllib.request import urlopenfrom io import BytesIOfrom bs4 import BeautifulSoupwordFile urlopen(http://pythonscraping.com/pages/AWordDocument.docx).read()wordFile BytesIO(wordFile)document ZipFile(wordFile)#xml_content document.read(word/document.xml)#print(xml_content.decode(utf-8))wordObj BeautifulSoup(xml_content.decode(utf-8),lxml)textStrings wordObj.findAll(w:t)for textElem in textStrings:print(textElem.text)5.抓取EXCEL6.抓取HTML源文档7.抓取HTML表单数据8.抓取Javascript数据更多内容请参考专题《python爬取功能汇总》进行学习。以上就是本文的全部内容希望对大家的学习有所帮助也希望大家多多支持聚米学院。
http://www.sadfv.cn/news/268902/

相关文章:

  • 网站投放广告怎么做用discuz做门户网站
  • 一个ip可以做几个网站互联网公司市值
  • 做网站 没内容wap免费网站
  • 如何查看网站流量海淀区网站搭建
  • 做汽车的网站做网站小程序在哪点拉客户
  • 消防做ccc去那个网站wordpress图片外链好
  • 容桂网站制作价格制作网站最新工具
  • 微信公众号怎么做网站链接网络运营商怎么看
  • 专业做高校网站群管理系统三网合一 营销型网站
  • 手机做网站内蒙和城乡建设部网站
  • 静态网站建设教程西安汇友网站建设
  • 二级域名可以做淘客网站网站开发适合女生吗
  • 小欢喜林磊儿什么网站做家教福州专业网站开发很专业
  • 建网站代理哪个怎么下载在线视频
  • 举例描述该如何布局网站关键词做淘宝客网站要注意什么
  • 120亿营收超120亿上海做网站优化价格
  • 青岛网站定制多少钱专业定制网红柴火灶
  • 网站关键词代码青岛网站设计公司在哪找
  • 学网站建设与管理难吗wordpress mysql备份
  • 做网站去哪里做好宁波网站设计公司排名
  • 专业图库网站 西安网站建设找c宋南南
  • 外国人做中国数学视频网站Wordpress会员插件出错
  • 开一个做网站的公司门户网站模块
  • 管理学精品课程网站网站推广怎么样做
  • 设计类作品集怎么制作关键词优化快速排名
  • 安徽索凯特建设工程有限公司网站sem竞价托管公司
  • 为什么学习wordpress处理器优化软件
  • 电子商务建立网站前期准备设计师网上接私单app
  • 北京好网站制作公司哪家好空间站免费版下载
  • 网站建设要用H5吗北京市430场新闻发布会