当前位置: 首页 > news >正文

网站流量盈利宁波网站关键词优化公司

网站流量盈利,宁波网站关键词优化公司,在网上怎么赚钱?,wordpress能商用吗工具篇 下面列了几个较为主流的分词工具#xff08;排名不分先后#xff0c;大家自行试用#xff09;#xff0c;相关的paper请在订阅号「夕小瑶的卖萌屋」后台回复【中文分词】领取。 1 Jieba 说到分词工具第一个想到的肯定是家喻户晓的“结巴”中文分词#xff0c;主…工具篇 下面列了几个较为主流的分词工具排名不分先后大家自行试用相关的paper请在订阅号「夕小瑶的卖萌屋」后台回复【中文分词】领取。 1 Jieba 说到分词工具第一个想到的肯定是家喻户晓的“结巴”中文分词主要算法是前面讲到的基于统计的最短路径词图切分近期还内置了百度飞桨的预训练模型大规模蒸馏的前沿分词模型。 github项目地址https://github.com/fxsjy/jieba 2 THULACTHU Lexical Analyzer for Chinese 由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包具有中文分词和词性标注功能。该工具所采用的分词模型为结构化感知机。更多算法细节请参考github项目和阅读论文原文。 github项目地址https://github.com/thunlp/THULAC 论文链接https://www.mitpressjournals.org/doi/pdf/10.1162/coli.2009.35.4.35403 使用示例 #THULAC #pip install thulac import thulacsentence 不会讲课的程序员不是一名好的算法工程师 thu1 thulac.thulac(seg_onlyTrue) #只分词 text thu1.cut(sentence, textTrue) #进行一句话分词 print(THULAC: text)#output #Model loaded succeed #THULAC: 不 会 讲课 的 程序员 不 是 一 名 好 的 算法 工程师 3 NLPIR-ICTCLAS汉语分词系统 北京理工大学海量语言信息处理与云计算工程研究中心大数据搜索与挖掘实验室 Big Data Search and Mining Lab.BDSMBIT发布。是基于层次HMM的分词库将分词、POS、NER等都纳入到了一个层次HMM的框架之下联合训练得到。 主页http://ictclas.nlpir.org/github 项目地址https://github.com/tsroten/pynlpir 使用示例 #NLPIR-ICTCLAS #pip install pynlpir import pynlpirsentence 不会讲课的程序员不是一名好的算法工程师 pynlpir.open() tokens [x[0] for x in pynlpir.segment(sentence)] print(NLPIR-TCTCLAS: .join(tokens)) pynlpir.close()#output #NLPIR-TCTCLAS: 不 会 讲课 的 程序员 不 是 一 名 好 的 算法 工程 4 LTP 哈工大出品同THULAC一样LTP也是基于结构化感知器Structured Perceptron, SP以最大熵准则学习的分词模型。 项目主页:https://www.ltp-cloud.com/github 项目地址https://github.com/HIT-SCIR/ltp 论文链接http://jcip.cipsc.org.cn/CN/abstract/abstract1579.shtml 使用示例使用前需下载分词模型http://ltp.ai/download.html 5 HanLP HanLP是随《自然语言处理入门》配套开源的一系列NLP算法库。除了经典的1.x版本在不断迭代更新以外今年还全新推出了2.0版本。1.x版本有有基于词典的分词工具和基于CRF的切词模型。2.0版本开源了基于深度学习算法的分词工具。 1.x版本 github项目地址https://github.com/hankcs/pyhanlp 2.0版本 github地址https://github.com/hankcs/HanLP/tree/doc-zh 使用示例要求Python 3.6以上使用 #HanLP #v2.0 #pip install hanlp import hanlpsentence 不会讲课的程序员不是一名好的算法工程师 tokenizer hanlp.load(PKU_NAME_MERGED_SIX_MONTHS_CONVSEG) tokens tokenizer(sentence) print(hanlp 2.0: .join(tokens)) #output #hanlp 2.0: 不 会 讲课 的 程序员 不 是 一 名 好 的 算法 工程 6 Stanford CoreNLP 斯坦福推出的切词工具可以支持多种语言。算法核心是基于CRF模型。 github项目地址https://github.com/Lynten/stanford-corenlp 论文链接https://nlp.stanford.edu/pubs/sighan2005.pdf 使用示例需要先从stanford官网下载中文切词模型https://stanfordnlp.github.io/CoreNLP/ ###stanford CoreNLP #pip install stanfordcorenlp from stanfordcorenlp import StanfordCoreNLPsentence 不会讲课的程序员不是一名好的算法工程师 with StanfordCoreNLP(rstanford-chinese-corenlp-2018-10-05-models, langzh) as nlp:print(stanford: .join(nlp.word_tokenize(sentence)))
http://www.sadfv.cn/news/27857/

相关文章:

  • 泰安网站建设最好个人可以做下载类网站吗
  • 关于网站建设的问题wordpress 2016
  • 自己的网站怎么做下载链接好看的html代码
  • 深圳做电商平台网站dw软件是做什么用的
  • 东莞网站建设58巨好用企业网站源码
  • 网站架构有哪些网站缩放代码
  • 泰安市住房与城乡建设局网站org后缀做网站行
  • 网站建设公司兴田德润专业wordpress怎么做小程序
  • 建设银行茂名网站动态域名网站
  • 拖拽式网站建设费用做公司网站按年收费
  • 网站创意的技术wordpress关闭页面评论
  • 培训销售网站建设商务网站建设用的是什么软件
  • 学校网站建设问卷调查平面设计哪里学
  • 网站建设 项目背景沈阳求做商城 网站
  • 向搜索引擎提交网站地图微信微网站模版
  • 重庆 网站设计如何制作个人网页缴费
  • 宁晋网站建设多少钱工业设计创意网站
  • 成都网站建设行业分析假快递单制作软件app
  • 房屋网站东莞的网站建设公司
  • 佛山制作网站公司推荐seo站内优化培训
  • 网站自助搭建平台格朗图手表网站
  • 有什么网站建设类岗位外贸网站建设可以吗
  • 什么网站时候做伪静态中国有多少网站有多少域名
  • 建设银行南通城区网站wordpress4.9.8 php版本
  • 减压轻松网站开发网络营销工具的特点
  • 天津企业网站建设哪家好软件开发流程模型有哪些
  • 公司 网站 模板办公装修怎么设计
  • 外包网站设计公司开发公司自渠工作感悟
  • 写作网站招聘WordPress社工库
  • 盐田做网站外贸资讯平台