当前位置: 首页 > news >正文

网站开发如何私人网站制作

网站开发如何,私人网站制作,在上海注册公司有什么好处,昌图网站最大匹配算法是自然语言处理中的中文匹配算法中最基础的算法#xff0c;分为正向和逆向#xff0c;原理都是一样的。 正向最大匹配算法#xff0c;故名思意#xff0c;从左向右扫描寻找词的最大匹配。 首先我们可以规定一个词的最大长度#xff0c;每次扫描的时候寻找当前…最大匹配算法是自然语言处理中的中文匹配算法中最基础的算法分为正向和逆向原理都是一样的。 正向最大匹配算法故名思意从左向右扫描寻找词的最大匹配。 首先我们可以规定一个词的最大长度每次扫描的时候寻找当前开始的这个长度的词来和字典中的词匹配如果没有找到就缩短长度继续寻找直到找到或者成为单字。 实例 S1计算语言学课程是三个课时 ,设定最大词长MaxLen 5 ,S2 字典中含有三个词[计算语言学]、[课程]、[课时] 1S2S1不为空从S1左边取出候选子串W计算语言学 2查词表“计算语言学”在词表中将W加入到S2中S2“计算语言学/ ” 并将W从S1中去掉此时S1课程是三个课时 3S1不为空于是从S1左边取出候选子串W课程是三个 4查词表W不在词表中将W最右边一个字去掉得到W课程是三 5查词表W不在词表中将W最右边一个字去掉得到W课程是 6查词表W不在词表中将W最右边一个字去掉得到W课程 7查词表W在词表中将W加入到S2中S2“计算语言学/ 课程/ ”并 将W从S1中去掉此时S1是三个课时 8S1不为空于是从S1左边取出候选子串W是三个课时 9查词表W不在词表中将W最右边一个字去掉得到W是三个课 10查词表W不在词表中将W最右边一个字去掉得到W是三个 11查词表W不在词表中将W最右边一个字去掉得到W是三 12查词表W不在词表中将W最右边一个字去掉得到W“是”这时 W是单字将W加入到S2中S2“计算语言学/ 课程/ 是/ ”并将 W从S1中去掉此时S1三个课时 13S1不为空从S1左边取出候选子串W三个课时 14查词表W不在词表中将W最右边一个字去掉得到W三个课 15查词表W不在词表中将W最右边一个字去掉得到W三个 16查词表W不在词表中将W最右边一个字去掉得到W“三”这时 W是单字将W加入到S2中S2“计算语言学/ 课程/ 是/ 三/ ”并 将W从S1中去掉此时S1个课时 17S1不为空从S1左边取出候选子串W个课时 18查词表W不在词表中将W最右边一个字去掉得到W个课 19查词表W不在词表中将W最右边一个字去掉得到W“个” 这时W是单字将W加入到S2中S2“计算语言学/ 课程/ 是/ 三/ 个/ 并将W从S1中去掉此时S1课时 20S1不为空从S1左边取出候选子串W课时 21查词表W在词表中将W加入到S2中S2“计算语言学/ 课程/ 是/ 三/ 个/ 课时/ 并将W从S1中去掉此时S1。 22S1为空输出S2作为分词结果分词过程结束。 中文分词算法的Python实现 脚本接受两个参数一个是输入文件的路径另一个是词典的路径。 它的运行方法如下 python max-match.py #!/usr/bin/env python import cPickle as pickle import sys window_size5 def max_match_segment(line, dic): # write your code here chars line.decode(utf8) words [] idx 0 while idx len(chars): matched False for i in xrange(window_size, 0, -1): candchars[idx:idxi].encode(utf8) if cand in dic: words.append(cand) matched True break if not matched: i 1 words.append(chars[idx].encode(utf8)) idx i return words if __name____main__: try: fpiopen(sys.argv[1], r) except: print sys.stderr, failed to open file sys.exit(1) try: dic pickle.load(open(sys.argv[2], r)) except: print sys.stderr, failed to load dict %s % sys.argv[2] sys.exit(1) try: fpo open(out.txt,w) except: print sys.stderr, failed to load out.txt sys.exit(1) for line in fpi: fpo.write(\t.join( max_match_segment(line.strip(), dic) )) 当然这只是最基础的还可以有很多高级的优化比如说改成Trie树版本的控制最大词长度的等等。
http://www.yutouwan.com/news/345414/

相关文章:

  • 网站后台ftp如何在百度里做推广网站
  • 新建网站的价格劳动局免费咨询律师电话
  • 世界建设企业网站wordpress 制作瀑布流
  • 保定建站软件wordpress中文相册插件
  • 珠海门户网站建设seo销售是做什么的
  • 企业网站里面的qq咨询怎么做wordpress备份数据
  • 心理学重点学科建设网站什么软件可以做app
  • 摄影网站哪个最好网页设计尺寸1080
  • wordpress网站合并如何弄一个自己的公众号
  • 如何给公司做一个网站北京网站优化哪家公司好
  • 网站seo排名公司微信公众号小程序助手
  • 沈阳专门做网站网站关键字被改了
  • 怎么在备案号添加网站佛山专业做网站的
  • 如何阿里网站建设1元购类似网站架设药多少钱
  • 唐山哪个公司做网站网站怎么添加滤镜功能吗
  • 邯郸市教育考试院网站建设网站的整个费用预算
  • 网站建设审核需要多长时间门户网站想要微信登录怎么做
  • 网站开发公司网站建设的几种形式
  • 一个网站应该怎么做北京企业网站设计方案
  • 做情书直接点网站北京比较大的软件开发公司
  • 查一下红之易道学做的什么网站怎么把网站制作成安卓
  • 一站式快速网站排名多少钱在什么网站做外贸
  • 网站在政务新媒体建设方案网站后台域名解析怎么做
  • 网站开发实践感想wordpress保存图片不显示
  • 哪个网站域名解析网站建设销售工作内容
  • 网站收录在哪里可以查看网站开发招标前提
  • 周宁县建设局网站安徽制作网站
  • 检察门户网站建设自查报告哪些网站可以医生做兼职
  • 北京做网站ezhixi合肥网站设计服务
  • 网站由什么构成中山网站建设联系电话