当前位置：首页 > news >正文

网站页面设计颜色背景要求wordpress文章数据下载

news 2026/1/13 17:41:26

网站页面设计颜色背景要求,wordpress文章数据下载,如何生成自己的小程序,软件下载app排行榜原文链接#xff1a;https://flashgene.com/archives/46041.html 本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢. 作者 | 杨秀璋来源 | CSDN 博客#xff08;CSDN id#xff1a;Eastmount#xff09; 【导语】此文是作者基于 Python 构…原文链接https://flashgene.com/archives/46041.html 本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢. 作者 | 杨秀璋来源 | CSDN 博客CSDN idEastmount 【导语】此文是作者基于 Python 构建知识图谱的系列实践教程具有一定创新性和实用性。文章前半部分内容先介绍哈工大 pytltp 工具包括安装过程、中文分词、词性标注和实体识别的一些基本用法后半部分内容讲解词性标注、实体识别、依存句法分析和语义角色标注及代码实现。【上篇】一、哈工大LTP LTPLanguage Technology Platform中文为语言技术平台是哈工大社会计算与信息检索研究中心开发的一整套中文语言处理系统。LTP制定了基于XML的语言处理结果表示并在此基础上提供了一整套自底向上的丰富而且高效的中文语言处理模块包括词法、句法、语义等6项中文处理核心技术以及基于动态链接库Dynamic Link LibraryDLL的应用程序接口可视化工具并且能够以网络服务的形式进行使用。 LTP开发文档 https://ltp.readthedocs.io/zh_CN/latest/index.html 语言云LTP-Cloud http://www.ltp-cloud.com/ 模型下载地址 http://ltp.ai/download.html 在线演示案例如下图所示相信从事NLP、数据挖掘、知识图谱等领域的博友都知道哈工大LTP、同义词词林这些工具该系列文章也会介绍相关的知识希望对您有所帮助。此外再补充另一个在线NLP分析系统感兴趣的朋友们也可以试一下~ http://ictclas.nlpir.org/nlpir/ 二.pyltp 终极安装下面介绍 Windows10 Python 环境下 LTP 的扩展包 pyltp 安装过程。 1.常见错误大家通常会调用 “pip install pyltp” 安装该扩展包但会遇到各种错误下面介绍一种可行的方法。 2.安装pyltp包首先安装Python3.6环境如下图所示“python-3.6.7-amd64.exe”。接着下载pyltp扩展包的whl文件至本地调用CMD环境进行安装注意需要将所在文件的路径写清楚。 pyltp-0.2.1-cp35-cp35m-win_amd64.whl 对应Python3.5版本 pyltp-0.2.1-cp36-cp36m-win_amd64.whl 对应Python3.6版本 pip install C:\Python36\Scripts\pyltp-0.2.1-cp36-cp36m-win_amd64.whl whl下载地址 https://download.csdn.net/download/qq_22521211/10460778 安装过程下图所示此时表示pyltp安装成功。注意如果报错“errorMicrosoft Visual C 9.0 is required”则安装下面exe文件。 3.下载模型文件最后需要下载模型文件其下载地址为百度云 https://pan.baidu.com/share/link?shareid1988562907uk2738088569#list/path%2F 七牛云 http://ltp.ai/download.html 本文下载3.4版本的模型下载解压如下图所示模型对应的说明如下图所示在编写代码时需要导入指定文件夹中的模型再进行中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注等分析。例如 #词性标注 pdirAgriKG\\ltp\\pos.model pos Postagger() pos.load(pdir) postags pos.postag(word) #基于分词得到的list将下词性标注 postags list(postags) print(u词性:, postags) 分词、词性标注、句法分析一系列任务之间存在依赖关系。举例来讲对于词性标注必须在分词结果之上进行才有意义。LTP中提供的5种分析之间的依赖关系如下所示讲到这里哈工大pyltp基本安装成功接下来将介绍它的基本用法。基础性文章希望对入门者有所帮助。三.中文分句和分词官方文档 https://pyltp.readthedocs.io/zh_CN/latest/api.html#id13 实现原理 https://ltp.readthedocs.io/zh_CN/latest/theory.html#customized-cws-reference-label 1.中文分句 # -*- coding: utf-8 -*- from pyltp import SentenceSplitter from pyltp import Segmentor from pyltp import Postagger from pyltp import NamedEntityRecognizer #分句 text 贵州财经大学要举办大数据比赛吗那让欧几里得去问问看吧其实是在贵阳花溪区吧。 sents SentenceSplitter.split(text) print(\n.join(sents)) 中文分句的输出结果如下所示贵州财经大学要举办大数据比赛吗那让欧几里得去问问看吧其实是在贵阳花溪区吧。 2.中文分词 # -*- coding: utf-8 -*- from pyltp import SentenceSplitter from pyltp import Segmentor from pyltp import Postagger from pyltp import NamedEntityRecognizer text “贵州财经大学要举办大数据比赛吗那让欧几里得去问问看吧其实是在贵阳花溪区吧。” #中文分词 segmentor Segmentor() #初始化实例 segmentor.load(“AgriKG\ltp\cws.model”) #加载模型 words segmentor.segment(text) #分词 print(type(words)) print(’ .join(words)) segmentor.release() #释放模型输出结果如下所示人工换行 class pyltp.VectorOfString 贵州财经大学要举办大数据比赛吗那让欧几里得去问问看吧其实是在贵阳花溪区吧。此时的分词效果并不理想如 “大数据” 分为了“大”、“数据”“欧几里得”分为了“欧”、“几”、“里”、“得”“贵阳花溪区”分为了“贵阳”、“花溪区”等故需要引入词典进行更为准确的分词。同时返回值类型是native的VectorOfString类型可以使用list转换成Python的列表类型。 3.导入词典中文分词 pyltp 分词支持用户使用自定义词典。分词外部词典本身是一个文本文件plain text每行指定一个词编码同样须为 UTF-8比如“word”文件如下图所示完整代码如下所示 # -*- coding: utf-8 -*- from pyltp import SentenceSplitter from pyltp import Segmentor from pyltp import Postagger from pyltp import NamedEntityRecognizer ldir‘AgriKG\ltp\cws.model’ #分词模型 dicdir‘word’ #外部字典 text “贵州财经大学要举办大数据比赛吗那让欧几里得去问问看吧其实是在贵阳花溪区吧。” #中文分词 segmentor Segmentor() #初始化实例 segmentor.load_with_lexicon(ldir, ‘word’) #加载模型 words segmentor.segment(text) #分词 print(’ .join(words)) #分词拼接 words list(words) #转换list print(u分词:, words) segmentor.release() #释放模型输出结果如下所示它将“大数据”、“欧几里得”、“贵阳花溪区”进行了词典匹配再进行相关分词但是“贵州财经大学”仍然划分为“贵州”、“财经”、“大学”。Why 贵州财经大学要举办大数据比赛吗那让欧几里得去问问看吧其实是在贵阳花溪区吧。分词: [贵州, 财经, 大学, 要, 举办, 大数据, 比赛, 吗, , 那, 让, 欧几里得, 去, 问问, 看, 吧, , 其实, 是, 在, 贵阳花溪区, 吧, 。] 4.个性化分词个性化分词是 LTP 的特色功能。个性化分词为了解决测试数据切换到如小说、财经等不同于新闻领域的领域。在切换到新领域时用户只需要标注少量数据。个性化分词会在原有新闻数据基础之上进行增量训练。从而达到即利用新闻领域的丰富数据又兼顾目标领域特殊性的目的。 pyltp 支持使用用户训练好的个性化模型。关于个性化模型的训练需使用 LTP详细介绍和训练方法请参考个性化分词。在 pyltp 中使用个性化分词模型的示例如下 # -*- coding: utf-8 -*- from pyltp import CustomizedSegmentor customized_segmentor CustomizedSegmentor() #初始化实例 customized_segmentor.load(基本模型, 个性模型) #加载模型 words customized_segmentor.segment(亚硝酸盐是一种化学物质) print \t.join(words) customized_segmentor.release() 【下篇】词性标注、实体识别、依存句法分析和语义角色标注及代码实现一.词性标注词性标注Part-Of-Speech tagging, POS tagging也被称为语法标注grammatical tagging或词类消疑word-category disambiguation是语料库语言学corpus linguistics中将语料库内单词的词性按其含义和上下文内容进行标记的文本数据处理技术。 pyltp词性标注与分词模块相同将词性标注任务建模为基于词的序列标注问题。对于输入句子的词序列模型给句子中的每个词标注一个标识词边界的标记。在LTP中采用的北大标注集。完整代码 # -*- coding: utf-8 -*- from pyltp import SentenceSplitter from pyltp import Segmentor from pyltp import Postagger from pyltp import NamedEntityRecognizer ldir‘AgriKG\ltp\cws.model’ #分词模型 dicdir‘word’ #外部字典 text “贵州财经大学要举办大数据比赛吗” #中文分词 segmentor Segmentor() #初始化实例 segmentor.load_with_lexicon(ldir, ‘word’) #加载模型 words segmentor.segment(text) #分词 print(text) print(’ .join(words)) #分词拼接 words list(words) #转换list print(u分词:, words) segmentor.release() #释放模型 #词性标注 pdir‘AgriKG\ltp\pos.model’ pos Postagger() #初始化实例 pos.load(pdir) #加载模型 postags pos.postag(words) #词性标注 postags list(postags) print(u词性:, postags) pos.release() #释放模型 data {“words”: words, “tags”: postags} print(data) 输出结果如下图所示“贵州”词性为“ns”地理名词 “财经”词性为“n”一般名词“举办”词性为“v”动词“吗”词性为“u”助词“”词性为“wp”标点。贵州财经大学要举办大数据比赛吗贵州财经大学要举办大数据比赛吗分词: [贵州, 财经, 大学, 要, 举办, 大数据, 比赛, 吗, ] 词性: [ns, n, n, v, v, n, v, u, wp] {words: [贵州, 财经, 大学, 要, 举办, 大数据, 比赛, 吗, ], tags: [ns, n, n, v, v, n, v, u, wp]} 具体词性为 Tag Description Example a adjective形容词美丽 b other noun-modifier其他的修饰名词大型, 西式 c conjunction连词和, 虽然 d adverb副词很 e exclamation感叹词哎 g morpheme 茨, 甥 h prefix前缀阿, 伪 i idiom成语百花齐放 j abbreviation缩写公检法 k suffix后缀界, 率 m number数字一, 第一 n general noun一般名词苹果 nd direction noun方向名词右侧 nh person name人名杜甫, 汤姆 ni organization name公司名保险公司中国银行 nl location noun地点名词城郊 ns geographical name地理名词北京 nt temporal noun时间名词近日, 明代 nz other proper noun其他名词诺贝尔奖 o onomatopoeia拟声词哗啦 p preposition介词在, 把与 q quantity量词个 r pronoun代词我们 u auxiliary助词的, 地 v verb动词跑, 学习 wp punctuation标点。 ws foreign words国外词 CPU x non-lexeme不构成词萄, 翱 z descriptive words 描写叙述的词瑟瑟匆匆二.命名实体识别命名实体识别Named Entity Recognition简称NER又称作“专名识别”是指识别文本中具有特定意义的实体主要包括人名、地名、机构名、专有名词等。命名实体识别是信息提取、问答系统、句法分析、机器翻译、面向Semantic Web的元数据标注等应用领域的重要基础工具在自然语言处理技术走向实用化的过程中占有重要地位。在哈工大Pyltp中NE识别模块的标注结果采用O-S-B-I-E标注形式其含义如下参考 LTP中的NE 模块识别三种NE分别为人名Nh、机构名Ni、地名Ns。完整代码 # -*- coding: utf-8 -*- from pyltp import SentenceSplitter from pyltp import Segmentor from pyltp import Postagger from pyltp import NamedEntityRecognizer ldir‘AgriKG\ltp\cws.model’ #分词模型 dicdir‘word’ #外部字典 text “贵州财经大学要举办大数据比赛吗” #中文分词 segmentor Segmentor() #初始化实例 segmentor.load_with_lexicon(ldir, ‘word’) #加载模型 words segmentor.segment(text) #分词 print(text) print(’ .join(words)) #分词拼接 words list(words) #转换list print(u分词:, words) segmentor.release() #释放模型 #词性标注 pdir‘AgriKG\ltp\pos.model’ pos Postagger() #初始化实例 pos.load(pdir) #加载模型 postags pos.postag(words) #词性标注 postags list(postags) print(u词性:, postags) pos.release() #释放模型 data {“words”: words, “tags”: postags} print(data) print( ) #命名实体识别 nermodel‘AgriKG\ltp\ner.model’ reg NamedEntityRecognizer() #初始化命名实体实例 reg.load(nermodel) #加载模型 netags reg.recognize(words, postags) #对分词、词性标注得到的数据进行实体标识 netags list(netags) print(u命名实体识别:, netags) #实体识别结果 data{“reg”: netags,“words”:words,“tags”:postags} print(data) reg.release() 输出结果如下图所示识别出的三个命名实体分别是“贵州”B-Ni表示一个NE开始-机构名“财经”I-Ni表示一个NE中间-机构名“大学”E-Ni表示一个NE结束-机构名。 PS虽然导入指定词典但“贵州财经大学”分词仍然被分割后续研究中。三.依存句法分析依存句法是由法国语言学家L.Tesniere最先提出。它将句子分析成一棵依存句法树描述出各个词语之间的依存关系。也即指出了词语之间在句法上的搭配关系这种搭配关系是和语义相关联的。如下图所示哈工大Pyltp的依存句法关系如下图所示。参考 https://ltp.readthedocs.io/zh_CN/latest/appendix.html 完整代码 # -*- coding: utf-8 -*- from pyltp import SentenceSplitter from pyltp import Segmentor from pyltp import Postagger from pyltp import Parser from pyltp import NamedEntityRecognizer ldir ‘AgriKG\ltp\cws.model’ #分词模型 dicdir ‘word’ #外部字典 text “贵州财经大学要举办大数据比赛吗” #中文分词 segmentor Segmentor() #初始化实例 segmentor.load_with_lexicon(ldir, ‘word’) #加载模型 words segmentor.segment(text) #分词 print(text) print(’ .join(words)) #分词拼接 words list(words) #转换list print(u分词:, words) segmentor.release() #释放模型 #词性标注 pdir ‘AgriKG\ltp\pos.model’ pos Postagger() #初始化实例 pos.load(pdir) #加载模型 postags pos.postag(words) #词性标注 postags list(postags) print(u词性:, postags) pos.release() #释放模型 data {“words”: words, “tags”: postags} print(data) print( ) #命名实体识别 nermodel ‘AgriKG\ltp\ner.model’ reg NamedEntityRecognizer() #初始化命名实体实例 reg.load(nermodel) #加载模型 netags reg.recognize(words, postags) #对分词、词性标注得到的数据进行实体标识 netags list(netags) print(u命名实体识别:, netags) #实体识别结果 data{“reg”: netags,“words”:words,“tags”:postags} print(data) reg.release() #释放模型 print( ) #依存句法分析 parmodel ‘AgriKG\ltp\parser.model’ parser Parser() #初始化命名实体实例 parser.load(parmodel) #加载模型 arcs parser.parse(words, postags) #句法分析 #输出结果 print(words) print(\t.join(%d:%s % (arc.head, arc.relation) for arc in arcs)) rely_id [arc.head for arc in arcs] # 提取依存父节点id relation [arc.relation for arc in arcs] # 提取依存关系 heads [‘Root’ if id 0 else words[id-1] for id in rely_id] # 匹配依存父节点词语 for i in range(len(words)): print(relation[i] ‘(’ words[i] , ’ heads[i] ‘)’) parser.release() 输出结果如下所示其中ATT表示定中关系如“贵州-大学”、“财经-大学”SBV表示主谓关系如“大学-举办”ADV表示状中结果“要-举办”HED表示核心关系“举办-Root”即“举办大数据”。补充arc.head表示依存弧的父节点词的索引arc.relation表示依存弧的关系。arc.head中的ROOT节点的索引是0第一个词开始的索引依次为1、2、3。四.语义角色标注该部分代码仅供博友们参考作者还在深入研究中。 #语义角色标注 from pyltp import SementicRoleLabeller srlmodel ‘AgriKG\ltp\pisrl.model’ labeller SementicRoleLabeller() #初始化实例 labeller.load(srlmodel) #加载模型 words [‘元芳’, ‘你’, ‘怎幺’, ‘看’] postags [‘nh’, ‘r’, ‘r’, ‘v’] arcs parser.parse(words, postags) #依存句法分析 #arcs使用依存句法分析的结果 roles labeller.label(words, postags, arcs) #语义角色标注打印结果 for role in roles: print(role.index, “”.join( [%s:(%d,%d) % (arg.name, arg.range.start, arg.range.end) for arg in role.arguments])) labeller.release() #释放模型输出结果如下 3 A0:(1,1)ADV:(2,2) 上面的例子由于结果输出一行所以“元芳你怎幺看”有一组语义角色。其谓词索引为3即“看”。这个谓词有三个语义角色范围分别是(0,0)即“元芳”(1,1)即“你”(2,2)即“怎幺”类型分别是A0、A0、ADV。希望这篇基础性文章对你有所帮助如果有错误或不足之处还请海涵。原文链接 https://blog.csdn.net/Eastmount/article/details/90771843 https://blog.csdn.net/Eastmount/article/details/92440722 Download as PDF

查看全文

http://www.yutouwan.com/news/421125/