热搜关键词: 电路基础ADC数字信号处理封装库PLC

pdf

一种无词典快速抽词算法的设计和实现

  • 1星
  • 2013-09-20
  • 140.81KB
  • 需要1积分
  • 0次下载
标签: 一种无词典快速抽词算法的设计和实现

一种无词典快速抽词算法的设计和实现

中文抽词在中文自然语言处理中是最基础的工作。本文提出了一种无词典的t-score  和二分相结合的抽词算法。它首先对原始文本进行预处理,利用噪音词的辅助信息来做初始切分,经过处理后一部分词被抽取出来,存入结果集。接着利用本文的抽词算法来进行二次抽词,本算法应用了N-Gram  的思想,经过实验证明,该算法不但抽词速度快,而且抽取出的词相对长度大,维护了中文语言的完整性,为进一步进行语义分析和索引构建打下了良好的基础。关键字:无词典;t-score;二分法;快速抽词文本信息在人类的日常生活中起到举足轻重的作用,它是人们传递和接收信息的一种最广泛的形式。近年来,随着Internet技术与规模的不断发展,网络上的各种信息资源也随之迅速膨胀,其中很大一部分是以文本形式表示的。中文文本信息处理如文本分类[1]、机器翻译、自动文摘、信息检索等绝大部分需要以词为基本单位。中文与西文最大的区别就是:西文词与词之间用空格分开,因而词与词的界限是非常明显的;而中文词与词之间没有明显的划分界限,并且词的长度也是不定的。这就大大增加了中文自然语言处理的难度,同时分词研究是任何基于中文信息研究的第一步工作。目前基于中文的分词方法大致分为两类:基于统计和基于规则[2]。其中大多数算法是基于一个提前构造好的词库来进行匹配,因此词典的覆盖率成为影响这类算法效率的一个关键因素[3]。然而由于汉语本身的灵活性,以及各种新词的不断涌现,要构造出一个完整的覆盖各个领域的通用词库是一件不容易的事情。因此,本文将研究一种基于无词典的抽词方法,这种方法扩展了分词算法的应用领域,同时与文献[4]相比,该算法不是基于逐字扫描,所以大大提高了分词的效率。通过实验证明该算法的抽词效率、准确率和可接收率更高,同时能减少分词算法的复杂度。本文首先介绍如何对输入文本进行预处理,其次介绍如何利用t-score  和二分相结合算法来对预处理的字串进行抽词,最后给出实验结果,并对现在和未来的工作加以总结。

展开预览

猜您喜欢

评论

登录/注册

意见反馈

求资源

回顶部

推荐内容

热门活动

热门器件

随便看看

 
EEWorld订阅号

 
EEWorld服务号

 
汽车开发圈

电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2024 EEWORLD.com.cn, Inc. All rights reserved
×