HFCAS OpenIR
基于句子相关度的文本自动分类
其他题名Text classification based on sentence correlation
2006-01-01
发表期刊中国科学技术大学学报
ISSN0253-2778
摘要提出一种基于句子相关度的文本自动分类模型(TCSC).该模型利用训练样本增量式地自动更新类别语料库,根据句子的位置权值和语料权值计算句子类别相关度,获得用于文本分类的句子相关度矩阵,通过该矩阵实现文档分类.该模型避免了分类阶段待分类文本特别是中文文本的分词,模糊了词的多义问题,且在文本分类的实验中能够达到86%以上的查全率和查准率;随着语料库的不断训练和调整,分类性能还可以进一步提高,具有简单实现的特点.
其他摘要A text category model based on sentence correlation(TCSC) was presented , which incrementally updates category corpus with the training documents automatically. Then, category correlation was obtained by means of sentence position weight and corpus item weight to achieve correlation matrix for text classification. This model avoids the problem of word segmentation in Chinese documents and lowers the effect of words with multiple meanings in the phase of classification. Experimental results show that the recall and precision of this model reached of over 86%, and can be improved by updating corpus. This model can also be implemented easily in programming.
关键词文本分类 语料库 相关度矩阵 句权
收录类别CSCD
语种中文
CSCD记录号CSCD:2541183
引用统计
被引频次:3[CSCD]   [CSCD记录]
文献类型期刊论文
条目标识符http://ir.hfcas.ac.cn:8080/handle/334002/69073
专题中国科学院合肥物质科学研究院
推荐引用方式
GB/T 7714
. 基于句子相关度的文本自动分类[J]. 中国科学技术大学学报,2006,036.
APA (2006).基于句子相关度的文本自动分类.中国科学技术大学学报,036.
MLA "基于句子相关度的文本自动分类".中国科学技术大学学报 036(2006).
条目包含的文件
条目无相关文件。
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
百度学术
百度学术中相似的文章
必应学术
必应学术中相似的文章
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。