当前位置: 首页 > news >正文

网站页面设计 颜色 背景 要求wordpress文章数据下载

网站页面设计 颜色 背景 要求,wordpress文章数据下载,如何生成自己的小程序,软件下载app排行榜原文链接#xff1a;https://flashgene.com/archives/46041.html 本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢. 作者 | 杨秀璋 来源 | CSDN 博客#xff08;CSDN id#xff1a;Eastmount#xff09; 【导语】此文是作者基于 Python 构…原文链接https://flashgene.com/archives/46041.html 本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.   作者 | 杨秀璋   来源 | CSDN 博客CSDN idEastmount   【导语】此文是作者基于 Python 构建知识图谱的系列实践教程具有一定创新性和实用性。文章前半部分内容先介绍哈工大 pytltp 工具包括安装过程、中文分词、词性标注和实体识别的一些基本用法后半部分内容 讲解词性标注、实体识别、依存句法分析和语义角色标注及代码实现。   【上篇】   一、哈工大LTP   LTPLanguage Technology Platform中文为语言技术平台是哈工大社会计算与信息检索研究中心开发的一整套中文语言处理系统。LTP制定了基于XML的语言处理结果表示并在此基础上提供了一整套自底向上的丰富而且高效的中文语言处理模块包括词法、句法、语义等6项中文处理核心技术以及基于动态链接库Dynamic Link LibraryDLL的应用程序接口可视化工具并且能够以网络服务的形式进行使用。   LTP开发文档   https://ltp.readthedocs.io/zh_CN/latest/index.html   语言云LTP-Cloud   http://www.ltp-cloud.com/   模型下载地址   http://ltp.ai/download.html   在线演示案例如下图所示       相信从事NLP、数据挖掘、知识图谱等领域的博友都知道哈工大LTP、同义词词林这些工具该系列文章也会介绍相关的知识希望对您有所帮助。   此外再补充另一个在线NLP分析系统感兴趣的朋友们也可以试一下~   http://ictclas.nlpir.org/nlpir/         二.pyltp 终极安装   下面介绍 Windows10 Python 环境下 LTP 的扩展包 pyltp 安装过程。   1.常见错误   大家通常会调用 “pip install pyltp” 安装该扩展包但会遇到各种错误下面介绍一种可行的方法。   2.安装pyltp包   首先安装Python3.6环境如下图所示“python-3.6.7-amd64.exe”。     接着下载pyltp扩展包的whl文件至本地调用CMD环境进行安装注意需要将所在文件的路径写清楚。   pyltp-0.2.1-cp35-cp35m-win_amd64.whl 对应Python3.5版本 pyltp-0.2.1-cp36-cp36m-win_amd64.whl 对应Python3.6版本 pip install C:\Python36\Scripts\pyltp-0.2.1-cp36-cp36m-win_amd64.whl   whl下载地址 https://download.csdn.net/download/qq_22521211/10460778   安装过程下图所示此时表示pyltp安装成功。     注意如果报错“errorMicrosoft Visual C 9.0 is required”则安装下面exe文件。     3.下载模型文件   最后需要下载模型文件其下载地址为   百度云   https://pan.baidu.com/share/link?shareid1988562907uk2738088569#list/path%2F   七牛云   http://ltp.ai/download.html   本文下载3.4版本的模型下载解压如下图所示     模型对应的说明如下图所示     在编写代码时需要导入指定文件夹中的模型再进行中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注等分析。例如   #词性标注 pdirAgriKG\\ltp\\pos.model pos Postagger() pos.load(pdir) postags pos.postag(word) #基于分词得到的list将下词性标注 postags list(postags) print(u词性:, postags)   分词、词性标注、句法分析一系列任务之间存在依赖关系。举例来讲对于词性标注必须在分词结果之上进行才有意义。LTP中提供的5种分析之间的依赖关系如下所示     讲到这里哈工大pyltp基本安装成功接下来将介绍它的基本用法。   基础性文章希望对入门者有所帮助。   三.中文分句和分词   官方文档   https://pyltp.readthedocs.io/zh_CN/latest/api.html#id13   实现原理   https://ltp.readthedocs.io/zh_CN/latest/theory.html#customized-cws-reference-label   1.中文分句   # -*- coding: utf-8 -*- from pyltp import SentenceSplitter from pyltp import Segmentor from pyltp import Postagger from pyltp import NamedEntityRecognizer #分句 text 贵州财经大学要举办大数据比赛吗那让欧几里得去问问看吧其实是在贵阳花溪区吧。 sents SentenceSplitter.split(text) print(\n.join(sents))   中文分句的输出结果如下所示   贵州财经大学要举办大数据比赛吗 那让欧几里得去问问看吧 其实是在贵阳花溪区吧。   2.中文分词   # -*- coding: utf-8 -*- from pyltp import SentenceSplitter from pyltp import Segmentor from pyltp import Postagger from pyltp import NamedEntityRecognizer text “贵州财经大学要举办大数据比赛吗那让欧几里得去问问看吧其实是在贵阳花溪区吧。” #中文分词 segmentor Segmentor() #初始化实例 segmentor.load(“AgriKG\ltp\cws.model”) #加载模型 words segmentor.segment(text) #分词 print(type(words)) print(’ .join(words)) segmentor.release() #释放模型 输出结果如下所示人工换行 class pyltp.VectorOfString 贵州 财经 大学 要 举办 大 数据 比赛 吗 那 让 欧 几 里 得 去 问问 看 吧 其实 是 在 贵阳 花溪区 吧 。 此时的分词效果并不理想如 “大数据” 分为了“大”、“数据”“欧几里得”分为了“欧”、“几”、“里”、“得”“贵阳花溪区”分为了“贵阳”、“花溪区”等故需要引入词典进行更为准确的分词。同时返回值类型是native的VectorOfString类型可以使用list转换成Python的列表类型。 3.导入词典中文分词 pyltp 分词支持用户使用自定义词典。分词外部词典本身是一个文本文件plain text每行指定一个词编码同样须为 UTF-8比如“word”文件如下图所示 完整代码如下所示 # -*- coding: utf-8 -*- from pyltp import SentenceSplitter from pyltp import Segmentor from pyltp import Postagger from pyltp import NamedEntityRecognizer ldir‘AgriKG\ltp\cws.model’ #分词模型 dicdir‘word’ #外部字典 text “贵州财经大学要举办大数据比赛吗那让欧几里得去问问看吧其实是在贵阳花溪区吧。” #中文分词 segmentor Segmentor() #初始化实例 segmentor.load_with_lexicon(ldir, ‘word’) #加载模型 words segmentor.segment(text) #分词 print(’ .join(words)) #分词拼接 words list(words) #转换list print(u分词:, words) segmentor.release() #释放模型 输出结果如下所示它将“大数据”、“欧几里得”、“贵阳花溪区”进行了词典匹配再进行相关分词但是“贵州财经大学”仍然划分为“贵州”、“财经”、“大学”。Why 贵州 财经 大学 要 举办 大数据 比赛 吗 那 让 欧几里得 去 问问 看 吧 其实 是 在 贵阳花溪区 吧 。 分词: [贵州, 财经, 大学, 要, 举办, 大数据, 比赛, 吗, , 那, 让, 欧几里得, 去, 问问, 看, 吧, , 其实, 是, 在, 贵阳花溪区, 吧, 。] 4.个性化分词 个性化分词是 LTP 的特色功能。个性化分词为了解决测试数据切换到如小说、财经等不同于新闻领域的领域。在切换到新领域时用户只需要标注少量数据。个性化分词会在原有新闻数据基础之上进行增量训练。从而达到即利用新闻领域的丰富数据又兼顾目标领域特殊性的目的。 pyltp 支持使用用户训练好的个性化模型。关于个性化模型的训练需使用 LTP详细介绍和训练方法请参考 个性化分词 。在 pyltp 中使用个性化分词模型的示例如下 # -*- coding: utf-8 -*- from pyltp import CustomizedSegmentor customized_segmentor CustomizedSegmentor() #初始化实例 customized_segmentor.load(基本模型, 个性模型) #加载模型 words customized_segmentor.segment(亚硝酸盐是一种化学物质) print \t.join(words) customized_segmentor.release() 【下篇】 词性标注、实体识别、依存句法分析和语义角色标注及代码实现 一.词性标注 词性标注Part-Of-Speech tagging, POS tagging也被称为语法标注grammatical tagging或词类消疑word-category disambiguation是语料库语言学corpus linguistics中将语料库内单词的词性按其含义和上下文内容进行标记的文本数据处理技术。 pyltp词性标注与分词模块相同将词性标注任务建模为基于词的序列标注问题。对于输入句子的词序列模型给句子中的每个词标注一个标识词边界的标记。 在LTP中采用的北大标注集。 完整代码 # -*- coding: utf-8 -*- from pyltp import SentenceSplitter from pyltp import Segmentor from pyltp import Postagger from pyltp import NamedEntityRecognizer ldir‘AgriKG\ltp\cws.model’ #分词模型 dicdir‘word’ #外部字典 text “贵州财经大学要举办大数据比赛吗” #中文分词 segmentor Segmentor() #初始化实例 segmentor.load_with_lexicon(ldir, ‘word’) #加载模型 words segmentor.segment(text) #分词 print(text) print(’ .join(words)) #分词拼接 words list(words) #转换list print(u分词:, words) segmentor.release() #释放模型 #词性标注 pdir‘AgriKG\ltp\pos.model’ pos Postagger() #初始化实例 pos.load(pdir) #加载模型 postags pos.postag(words) #词性标注 postags list(postags) print(u词性:, postags) pos.release() #释放模型 data {“words”: words, “tags”: postags} print(data) 输出结果如下图所示“贵州”词性为“ns”地理名词 “财经”词性为“n”一般名词“举办”词性为“v”动词“吗”词性为“u”助词“”词性为“wp”标点。 贵州财经大学要举办大数据比赛吗 贵州 财经 大学 要 举办 大数据 比赛 吗 分词: [贵州, 财经, 大学, 要, 举办, 大数据, 比赛, 吗, ] 词性: [ns, n, n, v, v, n, v, u, wp] {words: [贵州, 财经, 大学, 要, 举办, 大数据, 比赛, 吗, ], tags: [ns, n, n, v, v, n, v, u, wp]} 具体词性为 Tag Description Example a adjective形容词 美丽 b other noun-modifier其他的修饰名词 大型, 西式 c conjunction连词 和, 虽然 d adverb副词 很 e exclamation感叹词 哎 g morpheme 茨, 甥 h prefix前缀 阿, 伪 i idiom成语 百花齐放 j abbreviation缩写 公检法 k suffix后缀 界, 率 m number数字 一, 第一 n general noun一般名词 苹果 nd direction noun方向名词 右侧 nh person name人名 杜甫, 汤姆 ni organization name公司名 保险公司中国银行 nl location noun地点名词 城郊 ns geographical name地理名词 北京 nt temporal noun时间名词 近日, 明代 nz other proper noun其他名词 诺贝尔奖 o onomatopoeia拟声词 哗啦 p preposition介词 在, 把与 q quantity量词 个 r pronoun代词 我们 u auxiliary助词 的, 地 v verb动词 跑, 学习 wp punctuation标点 。 ws foreign words国外词 CPU x non-lexeme不构成词 萄, 翱 z descriptive words 描写叙述的词 瑟瑟匆匆 二.命名实体识别 命名实体识别Named Entity Recognition简称NER又称作“专名识别”是指识别文本中具有特定意义的实体主要包括人名、地名、机构名、专有名词等。命名实体识别是信息提取、问答系统、句法分析、机器翻译、面向Semantic Web的元数据标注等应用领域的重要基础工具在自然语言处理技术走向实用化的过程中占有重要地位。 在哈工大Pyltp中NE识别模块的标注结果采用O-S-B-I-E标注形式其含义如下参考 LTP中的NE 模块识别三种NE分别为人名Nh、机构名Ni、地名Ns。 完整代码 # -*- coding: utf-8 -*- from pyltp import SentenceSplitter from pyltp import Segmentor from pyltp import Postagger from pyltp import NamedEntityRecognizer ldir‘AgriKG\ltp\cws.model’ #分词模型 dicdir‘word’ #外部字典 text “贵州财经大学要举办大数据比赛吗” #中文分词 segmentor Segmentor() #初始化实例 segmentor.load_with_lexicon(ldir, ‘word’) #加载模型 words segmentor.segment(text) #分词 print(text) print(’ .join(words)) #分词拼接 words list(words) #转换list print(u分词:, words) segmentor.release() #释放模型 #词性标注 pdir‘AgriKG\ltp\pos.model’ pos Postagger() #初始化实例 pos.load(pdir) #加载模型 postags pos.postag(words) #词性标注 postags list(postags) print(u词性:, postags) pos.release() #释放模型 data {“words”: words, “tags”: postags} print(data) print( ) #命名实体识别 nermodel‘AgriKG\ltp\ner.model’ reg NamedEntityRecognizer() #初始化命名实体实例 reg.load(nermodel) #加载模型 netags reg.recognize(words, postags) #对分词、词性标注得到的数据进行实体标识 netags list(netags) print(u命名实体识别:, netags) #实体识别结果 data{“reg”: netags,“words”:words,“tags”:postags} print(data) reg.release() 输出结果如下图所示识别出的三个命名实体分别是“贵州”B-Ni表示一个NE开始-机构名“财经”I-Ni表示一个NE中间-机构名“大学”E-Ni表示一个NE结束-机构名。 PS虽然导入指定词典但“贵州财经大学”分词仍然被分割后续研究中。 三.依存句法分析 依存句法是由法国语言学家L.Tesniere最先提出。它将句子分析成一棵依存句法树描述出各个词语之间的依存关系。也即指出了词语之间在句法上的搭配关系这种搭配关系是和语义相关联的。如下图所示 哈工大Pyltp的依存句法关系如下图所示。 参考 https://ltp.readthedocs.io/zh_CN/latest/appendix.html 完整代码 # -*- coding: utf-8 -*- from pyltp import SentenceSplitter from pyltp import Segmentor from pyltp import Postagger from pyltp import Parser from pyltp import NamedEntityRecognizer ldir ‘AgriKG\ltp\cws.model’ #分词模型 dicdir ‘word’ #外部字典 text “贵州财经大学要举办大数据比赛吗” #中文分词 segmentor Segmentor() #初始化实例 segmentor.load_with_lexicon(ldir, ‘word’) #加载模型 words segmentor.segment(text) #分词 print(text) print(’ .join(words)) #分词拼接 words list(words) #转换list print(u分词:, words) segmentor.release() #释放模型 #词性标注 pdir ‘AgriKG\ltp\pos.model’ pos Postagger() #初始化实例 pos.load(pdir) #加载模型 postags pos.postag(words) #词性标注 postags list(postags) print(u词性:, postags) pos.release() #释放模型 data {“words”: words, “tags”: postags} print(data) print( ) #命名实体识别 nermodel ‘AgriKG\ltp\ner.model’ reg NamedEntityRecognizer() #初始化命名实体实例 reg.load(nermodel) #加载模型 netags reg.recognize(words, postags) #对分词、词性标注得到的数据进行实体标识 netags list(netags) print(u命名实体识别:, netags) #实体识别结果 data{“reg”: netags,“words”:words,“tags”:postags} print(data) reg.release() #释放模型 print( ) #依存句法分析 parmodel ‘AgriKG\ltp\parser.model’ parser Parser() #初始化命名实体实例 parser.load(parmodel) #加载模型 arcs parser.parse(words, postags) #句法分析 #输出结果 print(words) print(\t.join(%d:%s % (arc.head, arc.relation) for arc in arcs)) rely_id [arc.head for arc in arcs] # 提取依存父节点id relation [arc.relation for arc in arcs] # 提取依存关系 heads [‘Root’ if id 0 else words[id-1] for id in rely_id] # 匹配依存父节点词语 for i in range(len(words)): print(relation[i] ‘(’ words[i] , ’ heads[i] ‘)’) parser.release() 输出结果如下所示其中ATT表示定中关系如“贵州-大学”、“财经-大学”SBV表示主谓关系如“大学-举办”ADV表示状中结果“要-举办”HED表示核心关系“举办-Root”即“举办大数据”。 补充arc.head表示依存弧的父节点词的索引arc.relation表示依存弧的关系。arc.head中的ROOT节点的索引是0第一个词开始的索引依次为1、2、3。 四.语义角色标注 该部分代码仅供博友们参考作者还在深入研究中。 #语义角色标注 from pyltp import SementicRoleLabeller srlmodel ‘AgriKG\ltp\pisrl.model’ labeller SementicRoleLabeller() #初始化实例 labeller.load(srlmodel) #加载模型 words [‘元芳’, ‘你’, ‘怎幺’, ‘看’] postags [‘nh’, ‘r’, ‘r’, ‘v’] arcs parser.parse(words, postags) #依存句法分析 #arcs使用依存句法分析的结果 roles labeller.label(words, postags, arcs) #语义角色标注 打印结果 for role in roles: print(role.index, “”.join( [%s:(%d,%d) % (arg.name, arg.range.start, arg.range.end) for arg in role.arguments])) labeller.release() #释放模型 输出结果如下 3 A0:(1,1)ADV:(2,2) 上面的例子由于结果输出一行所以“元芳你怎幺看”有一组语义角色。其谓词索引为3即“看”。这个谓词有三个语义角色范围分别是(0,0)即“元芳”(1,1)即“你”(2,2)即“怎幺”类型分别是A0、A0、ADV。 希望这篇基础性文章对你有所帮助如果有错误或不足之处还请海涵。 原文链接 https://blog.csdn.net/Eastmount/article/details/90771843 https://blog.csdn.net/Eastmount/article/details/92440722 Download as PDF
http://www.yutouwan.com/news/421125/

相关文章:

  • 网站打不开dns修改seo资源网站 排名
  • 网站代码怎么做门户网站建设询价函
  • 奖券世界推广网站国家企业信用公示网官网
  • 怎么用自己的主机做网站服务器吗郑州网站制作哪家招聘
  • 优秀htm网站注册公司条件和要求
  • 网站效果图尺寸房屋网
  • 网站排名优化怎么样有哪些做包装盒的网站
  • 网站建设使页面内容居中网站建设如何添加歌曲
  • 建筑设计网站app装饰公司网站规划方案
  • 网站是怎么建立的seo综合查询平台官网
  • 网站建设会计处理wordpress 下拉式菜单
  • 珠海市网站设计公司网络信息设计是什么专业
  • 做网站ps分辨率给多少国家企业信息信用信息公示网址
  • 网站内容建设要求 age06站长工具seo综合查询网
  • wordpress建站教程阿里云网站开发案例教堂html
  • 网站制作软件排名乐至县建设局网站
  • 俄文网站引擎免费推广软件哪个好
  • php网站留言板模板安装Wordpress个人网站
  • 金乡网站建设公司国外平面设计教程网站
  • 网站原图怎么做wordpress网站正在维护中
  • 佛山三水网站建设沧州网站建设公司
  • 酒店 深圳 网站制作汕头网站上排名
  • 网站建没有前景成都医疗seo整站优化
  • 广州交易网站建设深圳建设厅官方网站
  • 辽宁省建设厅网站更新做网页去哪些网站找素材较好
  • 小程序视频网站开发潍坊高新建设局网站
  • 现在网站尺寸三 网站开发使用软件环境
  • 哪些网站做微课赚钱反钓鱼网站建设期
  • 用模块做网站用wordpress做微站
  • 网站建设开发技术类型天津seo关键字推广