当前位置: 首页 > news >正文

南京网站设计建设编程教程免费视频

南京网站设计建设,编程教程免费视频,深圳关键词推广整站优化,北京市优化网站源代码#xff1a; Lib/html/parser.py 这个模块定义了一个 HTMLParser 类#xff0c;为 HTML#xff08;超文本标记语言#xff09;和 XHTML 文本文件解析提供基础。 class html.parser.HTMLParser(*, convert_charrefsTrue) 创建一个能解析无效标记的解析器实例。 如果… 源代码 Lib/html/parser.py 这个模块定义了一个 HTMLParser 类为 HTML超文本标记语言和 XHTML 文本文件解析提供基础。 class html.parser.HTMLParser(*, convert_charrefsTrue) 创建一个能解析无效标记的解析器实例。 如果 convert_charrefs 为 True (默认值)则所有字符引用( script/style 元素中的除外)都会自动转换为相应的 Unicode 字符。 一个 HTMLParser 类的实例用来接受 HTML 数据并在标记开始、标记结束、文本、注释和其他元素标记出现的时候调用对应的方法。要实现具体的行为请使用 HTMLParser 的子类并重载其方法。 这个解析器不检查结束标记是否与开始标记匹配也不会因外层元素完毕而隐式关闭了的元素引发结束标记处理。 在 3.4 版更改: convert_charrefs 关键字参数被添加。 在 3.5 版更改: convert_charrefs 参数的默认值现在为 True。 HTML 解析器的示例程序 下面是简单的 HTML 解析器的一个基本示例使用 HTMLParser 类当遇到开始标记、结束标记以及数据的时候将内容打印出来。 from html.parser import HTMLParserclass MyHTMLParser(HTMLParser):def handle_starttag(self, tag, attrs):print(Encountered a start tag:, tag)def handle_endtag(self, tag):print(Encountered an end tag :, tag)def handle_data(self, data):print(Encountered some data :, data)parser MyHTMLParser() parser.feed(htmlheadtitleTest/title/headbodyh1Parse me!/h1/body/html)输出是: Encountered a start tag: html Encountered a start tag: head Encountered a start tag: title Encountered some data : Test Encountered an end tag : title Encountered an end tag : head Encountered a start tag: body Encountered a start tag: h1 Encountered some data : Parse me! Encountered an end tag : h1 Encountered an end tag : body Encountered an end tag : htmlHTMLParser 方法 HTMLParser 实例有下列方法 HTMLParser.feed(data) 填充一些文本到解析器中。如果包含完整的元素则被处理如果数据不完整将被缓冲直到更多的数据被填充或者 close() 被调用。data 必须为 str 类型。 HTMLParser.close() 如同后面跟着一个文件结束标记一样强制处理所有缓冲数据。这个方法能被派生类重新定义用于在输入的末尾定义附加处理但是重定义的版本应当始终调用基类 HTMLParser 的 close() 方法。 HTMLParser.reset() 重置实例。丢失所有未处理的数据。在实例化阶段被隐式调用。 HTMLParser.getpos() 返回当前行号和偏移值。 HTMLParser.get_starttag_text() 返回最近打开的开始标记中的文本。 结构化处理时通常应该不需要这个但在处理“已部署”的 HTML 或是在以最小改变来重新生成输入时可能会有用处例如可以保留属性间的空格等。 下列方法将在遇到数据或者标记元素的时候被调用。他们需要在子类中重载。基类的实现中没有任何实际操作除了 handle_startendtag()  HTMLParser.handle_starttag(tag, attrs) 调用此方法来处理一个元素的开始标记 (例如 div idmain)。 tag 参数是小写的标记名。attrs 参数是一个 (name, value) 形式的列表包含了所有在标记的  括号中找到的属性。name 转换为小写value 的引号被去除字符和实体引用都会被替换。 实例中对于标签 A HREFhttps://www.cwi.nl/这个方法将以下列形式被调用 handle_starttag(a, [(href, https://www.cwi.nl/)]) 。 html.entities 中的所有实体引用会被替换为属性值。 HTMLParser.handle_endtag(tag) 此方法被用来处理元素的结束标记例如 /div 。 tag 参数是小写的标签名。 HTMLParser.handle_startendtag(tag, attrs) 类似于 handle_starttag(), 只是在解析器遇到 XHTML 样式的空标记时被调用 img ... /。这个方法能被需要这种特殊词法信息的子类重载默认实现仅简单调用 handle_starttag() 和 handle_endtag() 。 HTMLParser.handle_data(data) 这个方法被用来处理任意数据例如文本节点和 script.../script 以及 style.../style 中的内容。 HTMLParser.handle_entityref(name) 这个方法被用于处理 name; 形式的命名字符引用例如 gt;其中 name 是通用的实体引用例如 gt。如果 convert_charrefs 为 True该方法永远不会被调用。 HTMLParser.handle_charref(name) 调用该方法来处理 #NNN; 和 #xNNN; 形式的十进制和十六进制数字字符引用。 例如gt; 的等价十进制形式为 #62;而十六进制形式则为 #x3E;在这种情况下该方法将收到 62 或 x3E。如果 convert_charrefs 为 True则此方法永远不会被调用。 HTMLParser.handle_comment(data) 这个方法在遇到注释的时候被调用例如 !--comment-- 。 例如 !-- comment -- 这个注释会用  comment  作为参数调用此方法。 Internet Explorer 条件注释condcoms的内容也被发送到这个方法因此对于 !--[if IE 9]IE9-specific content![endif]-- 这个方法将接收到 [if IE 9]IE9-specific content![endif] 。 HTMLParser.handle_decl(decl) 这个方法用来处理 HTML doctype 申明例如 !DOCTYPE html 。 decl 形参为 !... 标记中的所有内容例如 DOCTYPE html 。 HTMLParser.handle_pi(data) 此方法在遇到处理指令的时候被调用。data 形参将包含整个处理指令。例如对于处理指令 ?proc colorred 这个方法将以 handle_pi(proc colorred) 形式被调用。它旨在被派生类重载基类实现中无任何实际操作。 备注 HTMLParser 类使用 SGML 语法规则处理指令。使用 ? 结尾的 XHTML 处理指令将导致 ? 包含在 data 中。 HTMLParser.unknown_decl(data) 当解析器读到无法识别的声明时此方法被调用。 data 形参为 ![...] 标记中的所有内容。某些时候对派生类的重载很有用。基类实现中无任何实际操作。 例子 下面的类实现了一个解析器用于更多示例的演示: from html.parser import HTMLParser from html.entities import name2codepointclass MyHTMLParser(HTMLParser):def handle_starttag(self, tag, attrs):print(Start tag:, tag)for attr in attrs:print( attr:, attr)def handle_endtag(self, tag):print(End tag :, tag)def handle_data(self, data):print(Data :, data)def handle_comment(self, data):print(Comment :, data)def handle_entityref(self, name):c chr(name2codepoint[name])print(Named ent:, c)def handle_charref(self, name):if name.startswith(x):c chr(int(name[1:], 16))else:c chr(int(name))print(Num ent :, c)def handle_decl(self, data):print(Decl :, data)parser MyHTMLParser()解析一个文档类型声明: parser.feed(!DOCTYPE HTML PUBLIC -//W3C//DTD HTML 4.01//EN ... http://www.w3.org/TR/html4/strict.dtd) Decl : DOCTYPE HTML PUBLIC -//W3C//DTD HTML 4.01//EN http://www.w3.org/TR/html4/strict.dtd解析一个具有一些属性和标题的元素: parser.feed(img srcpython-logo.png altThe Python logo) Start tag: imgattr: (src, python-logo.png)attr: (alt, The Python logo)parser.feed(h1Python/h1) Start tag: h1 Data : Python End tag : h1script 和 style 元素中的内容原样返回无需进一步解析: parser.feed(style typetext/css#python { color: green }/style) Start tag: styleattr: (type, text/css) Data : #python { color: green } End tag : style parser.feed(script typetext/javascript ... alert(stronghello!/strong);/script) Start tag: scriptattr: (type, text/javascript) Data : alert(stronghello!/strong); End tag : script解析注释: parser.feed(!-- a comment -- ... !--[if IE 9]IE-specific content![endif]--) Comment : a comment Comment : [if IE 9]IE-specific content![endif]解析命名或数字形式的字符引用并把他们转换到正确的字符注意这 3 种转义都是  : parser.feed(gt;#62;#x3E;) Named ent: Num ent : Num ent : 填充不完整的块给 feed() 执行handle_data() 可能会多次调用除非 convert_charrefs 被设置为 True : for chunk in [sp, anbuff, ered , text/s, pan]: ... parser.feed(chunk) ... Start tag: span Data : buff Data : ered Data : text End tag : span解析无效的 HTML (例如未引用的属性也能正常运行: parser.feed(pa classlink href#maintag soup/p /a) Start tag: p Start tag: aattr: (class, link)attr: (href, #main) Data : tag soup End tag : p End tag : a
http://www.sadfv.cn/news/312105/

相关文章:

  • 华米手表官方网站青海网站建设
  • 网站开发需要学习什么技术科技与生活
  • 电器企业网站建站中小企业网站积木式搭建
  • 万年县建设银行网站拼音全称网页设计制作要求
  • 个人域名备案完成了 可以改网站内容吗富阳网站建设洛洛科技
  • 千博企业网站系统平面设计发展前景
  • seo排名优化appzac seo博客
  • 什么查网站是否降权商丘哪里有网站建设
  • 西安网站关键词优化费用模板网站如何快速交付给客户
  • 如何建设小说网站并且盈利网站建设基础
  • 石家庄网站定做网站怎么做成app
  • 免费网站建设 godaddy网站根目录在哪里
  • 加强政务公开与网站建设正规的网站制作服务商
  • 郑州建站网wordpress淘客导购文章
  • 个人网站名称怎么取容易备案什么是网站空间信息
  • 品牌网站建设企业wordpress 备份主题
  • 龙华网站建设设计公司客户管理系统admin
  • 广州市建设职业培训学校网站h5响应式企业网站源码
  • wordpress 关联插件青岛seo整站优化
  • 建设法规的网站个人网站需要备案
  • 苏州沧浪做网站哪家好莆田中建建设发展有限公司网站
  • 客户推广公司优化网站及商品排名怎么做
  • 网站推广岗位职责免费wordpress简洁博客模板下载
  • 安徽网站公司网站北京做微信网站哪家好
  • 蒲城矿建设备制造厂网站网站建设 从用户角度开始
  • 设计师在线网站PHP MySQL 网站开发实例
  • 论坛网站搭建山东网站建设网站推广
  • 有专业做外贸的网站吗中国建筑集团网站
  • 有哪些网站是做背景图片素材的建设企业手机银行
  • 网站搭建中114514网站制作网站