当前位置: 首页 > news >正文

网站建设项目预算表网站改版301是什么

网站建设项目预算表,网站改版301是什么,o2o电子商务网站策划书,网站开发服务计入什么科目转载自 Jsoup代码解读之一-概述今天看到一个用python写的抽取正文的东东#xff0c;美滋滋的用Java实现了一番#xff0c;放到了webmagic里#xff0c;然后发现Jsoup里已经有了…觉得自己各种不靠谱啊#xff01;算了#xff0c;静下心来学学好东西吧#xff01; Jsoup…转载自   Jsoup代码解读之一-概述今天看到一个用python写的抽取正文的东东美滋滋的用Java实现了一番放到了webmagic里然后发现Jsoup里已经有了…觉得自己各种不靠谱啊算了静下心来学学好东西吧 Jsoup是Java世界用作html解析和过滤的不二之选。支持将html解析为DOM树、支持CSS Selector形式选择、支持html过滤本身还附带了一个Http下载器。从今天开始会写一个Jsoup源码解读系列比起之前的博客尽量会写的详尽一些。 概述 Jsoup的代码相当简洁Jsoup总共53个类且没有任何第三方包的依赖对比最终发行包9.8M的SAXON实在算得上是短小精悍了。 jsoup ├── examples #样例包括一个将html转为纯文本和一个抽取所有链接地址的例子。 ├── helper #一些工具类包括读取数据、处理连接以及字符串转换的工具 ├── nodes #DOM节点定义 ├── parser #解析html并转换为DOM树 ├── safety #安全相关包括白名单及html过滤 └── select #选择器支持CSS Selector以及NodeVisitor格式的遍历使用 Jsoup的入口是Jsoup类。examples包里提供了两个例子解析html后分别用CSS Selector以及NodeVisitor来操作Dom元素。 这里用ListLinks里的例子来说明如何调用Jsoup !-- lang: java -- public static void main(String[] args) throws IOException {Validate.isTrue(args.length 1, usage: supply url to fetch);String url args[0];print(Fetching %s..., url);// 下载url并解析成html DOM结构Document doc Jsoup.connect(url).get();// 使用select方法选择元素参数是CSS Selector表达式Elements links doc.select(a[href]);print(\nLinks: (%d), links.size());for (Element link : links) {//使用abs:前缀取绝对url地址print( * a: %s (%s), link.attr(abs:href), trim(link.text(), 35));} }Jsoup使用了自己的一套DOM代码体系这里的Elements、Element等虽然名字和概念都与Java XML APIorg.w3c.dom类似但并没有代码层面的关系。就是说你想用XML的一套API来操作Jsoup的结果是办不到的但是正因为如此才使得Jsoup可以抛弃xml里一些繁琐的API使得代码更加简单。 还有一种方式是通过NodeVisitor来遍历DOM树这个在对整个html做分析和替换时比较有用 !-- lang: java -- public interface NodeVisitor {//遍历到节点开始时调用此方法public void head(Node node, int depth);//遍历到节点结束时(所有子节点都已遍历完)调用此方法public void tail(Node node, int depth); }HtmlToPlainText的例子说明了如何使用NodeVisitor来遍历DOM树将html转化为纯文本并将需要换行的标签替换为换行\n !-- lang: java -- public static void main(String... args) throws IOException {Validate.isTrue(args.length 1, usage: supply url to fetch);String url args[0];// fetch the specified URL and parse to a HTML DOMDocument doc Jsoup.connect(url).get();HtmlToPlainText formatter new HtmlToPlainText();String plainText formatter.getPlainText(doc);System.out.println(plainText); }public String getPlainText(Element element) {//自定义一个NodeVisitor - FormattingVisitorFormattingVisitor formatter new FormattingVisitor();//使用NodeTraversor来装载FormattingVisitorNodeTraversor traversor new NodeTraversor(formatter);//进行遍历traversor.traverse(element);return formatter.toString(); }下一节将从DOM结构开始对Jsoup代码进行分析。
http://www.sadfv.cn/news/354734/

相关文章:

  • 做几个小网站还是做一个大网站建设科技网络网站的意义和目的
  • 班级主页网页设计模板福州网站seo优化公司
  • 惠州百度推广优化排名哈尔滨网站seo公司
  • 王串场街网站建设公司中国建设银行网上银行登录
  • 网站开发和 app开发的区别中国建筑网上测评
  • 学习网站建设有前景没wordpress 分类目录 标题
  • 牡丹江有做网站的人吗宣传旅游网站建设
  • 网站开发者都是英文怎样开发呢运营策划方案模板
  • 桂林旅游网站建设哪个网站可下载免费ppt
  • 300网站建设wordpress主题授权加密
  • 建设银行成都 招聘网站百度app下载官方
  • 工商做年报网站可以做幻灯片的网站
  • 做网站和推广需要多少钱wordpress动态默认参数
  • 宁国新站seo爱深圳小程序
  • 杭州公司网站建设电话外贸企业网站红色风格
  • 企业网站模板html网站设计什么价位
  • 使用编辑字母做免费网站个人站长网站应该如何定位
  • 做的网站在百度上搜不出来鄂州建设工程造价信息网
  • 制作公司网站 价格网站建设的收获体会
  • 天猫店铺装修做特效的网站朋友圈推广图片
  • 八大处网站建设那里网站建设好
  • 网站流量导入是什么意思旅店网站建设规划书
  • 建站之星官网登陆二维码活码生成器在线制作
  • 网站建设导航图图库windows优化大师有用吗
  • 正定县建设局 网站linux wordpress lnmp
  • 深圳做网站平台维护的公司俄罗斯乌克兰克里米亚
  • 模板网站可以自己买空间吗吗招标网站平台有哪些
  • 网站是怎么搭建的网页设计模板html代码怎么学
  • 网站访问次数受限网站备案负责人一定要法人
  • 影视网站wordpress抚州购物网站开发设计