热搜关键词: 电路基础ADC数字信号处理封装库PLC

pdf

自动文摘系统中的段落自适应聚类研究

  • 1星
  • 2013-09-22
  • 187.8KB
  • 需要1积分
  • 0次下载
标签: 自动文摘系统中的段落自适应聚类研究

自动文摘系统中的段落自适应聚类研究

提出一种使用段落自动聚类思想的自动文摘方法,首先利用词频统计和词的位置特征得到文档的关键词向量、每个段落的关键词向量,并建立以段落为基础的向量空间模型;然后计算各段落间的相似度,采用K-medoids  聚类算法实现文档语义段的划分,并通过一个自定义的目标函数来自适应的确定聚类数目K;最后根据在初始文档中的位置顺序从各语义段中选出与主题最相关的句子构成文摘。关键词:自动文摘  语义段划分  向量空间模型  聚类  K-medoidsStudy  on  Adaptive  Clustering  of  Paragraphs  in  Automatic  Summarization  System  Liu  Haitao  Lao  Songyang  Han  Zhiguang  (Department  of  Information  System  and  Management,  National  University  of  Defence  Technology,  Changsha  410073)  Abstract:  Presents  a  useful  automatic  summarization  method  that  uses  automatic  clustering  thought.  Firstly,  the  keyword  vectors  of  a  document  and  that  of  each  paragraph  of  the  document  are  got  according  to  word  frequency  statistic  and  position  feature.  Based  on  paragraph,  the  vector  space  model  for  the  whole  article  is  established.  Secondly,  the  similarity  degree  between  paragraphs  is  calculated.  The  paragraphs  of  the  document  are  classified  into  semantic  paragraph  by  K-medoids  clustering  methods.  K,  the  number  of  clusters,  is  determined  by  a  self-defined  objective  function.  Finally,  according  to  their  positions  in  the  original  document,  the  representative  sentences  are  selected  from  each  semantic  paragraph  to  form  the  final  summarization.Keyword:Automatic  summarization;  Semantic  Paragraph  Partition;  Vector  Space  Model;  Clustering;  K-medoids

展开预览

猜您喜欢

评论

登录/注册

意见反馈

求资源

回顶部

推荐内容

热门活动

热门器件

随便看看

 
EEWorld订阅号

 
EEWorld服务号

 
汽车开发圈

电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2024 EEWORLD.com.cn, Inc. All rights reserved
×