当前位置: 首页 > news >正文

网站如何添加白名单wordpress百度编辑器

网站如何添加白名单,wordpress百度编辑器,免费设计企业logo,东莞专业网站设计专业服务PDF的格式不是规范的#xff0c;很多情况下没有逻辑结构#xff0c;不能自适应页面大小的调整。PDFMiner是通过尝试猜测PDF的布局来重建其结构#xff0c;有时候效果并不理想。 import importlib import sys import timeimportlib.reload(sys) time1 time.time()import os…PDF的格式不是规范的很多情况下没有逻辑结构不能自适应页面大小的调整。PDFMiner是通过尝试猜测PDF的布局来重建其结构有时候效果并不理想。 import importlib import sys import timeimportlib.reload(sys) time1 time.time()import os.path from pdfminer.pdfparser import PDFParser,PDFDocument from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter from pdfminer.converter import PDFPageAggregator from pdfminer.layout import LTTextBoxHorizontal,LAParams from pdfminer.pdfinterp import PDFTextExtractionNotAlloweddef parse(pdf_path,txt_path):解析PDF文本并保存到TXT文件中fp open(text_path,rb)# pdf1 urlopen(http://www.tencent.com/20160321.pdf)#用文件对象创建一个PDF文档分析器parser PDFParser(fp)#创建一个PDF文档doc PDFDocument()#连接分析器与文档对象parser.set_document(doc)doc.set_parser(parser)#提供初始化密码如果没有密码就创建一个空的字符串doc.initialize()#检测文档是否提供txt转换不提供就忽略if not doc.is_extractable:raise PDFTextExtractionNotAllowedelse:#创建PDF资源管理器来共享资源rsrcmgr PDFResourceManager()#创建一个PDF设备对象laparams LAParams()device PDFPageAggregator(rsrcmgr,laparamslaparams)#创建一个PDF解释其对象interpreter PDFPageInterpreter(rsrcmgr,device)#循环遍历列表每次处理一个page内容# doc.get_pages() 获取page列表for page in doc.get_pages():interpreter.process_page(page)#接受该页面的LTPage对象layout device.get_result()# 这里layout是一个LTPage对象 里面存放着 这个page解析出的各种对象# 一般包括LTTextBox, LTFigure, LTImage, LTTextBoxHorizontal 等等# 想要获取文本就获得对象的text属性for x in layout:if(isinstance(x,LTTextBoxHorizontal)):with open(txt_path,a) as f:results x.get_text()print(results)f.write(results \n)if __name__ __main__:pdf_path ./test.pdftxt_path ./test.txtparse(pdf_path,txt_path)time2 time.time()print(总共消耗时间为:,time2-time1)上述代码只能解析正常的PDF内容在实际应用场景中很多PDF文档可能是加密的如何处理解密的PDF文件也是我们需要get的技能。 pydf2这个库能够实现对PDF文件进行加密和解密。
http://www.yutouwan.com/news/459132/

相关文章:

  • 中网可信网站查询建设部监理师网站
  • 网站托管怎么做等保网页制作代码成品
  • 国家优质校建设网站wordpress 5.0.2关键词设置
  • 电子商务网站建设步骤百度文库两个网站做的h5如何合在一起
  • 网站开发的实施方案广东省建设局网站
  • 三网合一 网站建设便宜的网站设计企业
  • 建设银行签名通在网站哪里下载网站建设完工确认书
  • dede个人网站模板求购机械加工
  • 网站建设能未来做啥网站致富
  • 咋建网站北京h5网站建设
  • 空调安装工做网站容易被收录的网站
  • 网站建设金手指排名稳定现在那个网站做视频最赚钱
  • 公司网站制作专业公司南京高淳开展规模性核酸检测
  • 提高网站流量原则杭州公司vi设计
  • 自己做刷东西的网站关于网站建设管理的通知
  • 商洛网站建设公司中国产品信息网查询
  • 在线免费建网站网站建设 开发的团队需要几个人
  • 绿色大气网站模板厦门工商网站查询企业信息
  • 安达市建设局网站域名后缀一览表
  • 免费做暧暧网站湛江招聘网
  • 大学社团网站建设郑州网络推广招聘
  • 楚雄网站开发rewlkj不用代码做交互式网站
  • 卓成建设集团有限公司网站嘉兴网站建设推广
  • 墓地网站建设价格哈尔滨做网站
  • 诸城做网站建设的网站建设好的
  • 网站优化效果怎么样天猫关键词排名怎么控制
  • php建站软件哪个好网页设计与制作实训报告结果
  • 做淘客网站的公司wordpress图片文件夹
  • 做画册的国外网站电话开发网站建设话术
  • 四川省建设网站评标专家考试asp网站开发需要的基本条件