HFCAS OpenIR
基于文本密度模型的Web正文抽取
其他题名Web Content Extraction Based on Text Density Model
朱泽德1; 李淼2; 张健2; 陈雷2; 曾新华2
2013
发表期刊模式识别与人工智能
ISSN1003-6059
摘要为从大量无关信息中获取有用内容,正文抽取成为Web数据应用不可或缺的组成部分.文中提出一种基于文本密度模型的新闻网页正文抽取方法.主要通过融合网页结构和语言特征的统计模型,将网页文档按文本行转化成正、负密度序列,再根据邻近行的内容连续性,利用高斯平滑技术修正文本密度序列,最后采用改进的最大子序列分割序列抽取正文内容.该方法保持正文完整性并排除噪声干扰,且无需人工干预或反复训练.实验结果表明基于文本密度抽取正文对不同数据源具有广泛的适应性,且准确率和召回率优于现有统计模型.
其他摘要In order to obtain useful content encompassed by a large number of irrelevant information, the content extraction becomes indispensable for web data application. An approach of web content extraction based on the text density model is proposed, which integrates page structure features with language features to convert text lines of page document into a positive or negative density sequence. Additionally, the Gaussian smoothing technique is used to revise the density sequence, which takes the content continuity of adjacent lines into consideration. Finally, the improved maximum sequence segmentation is adopted to split the sequence and extract web content. Without any human intervention or repeated trainings, this approach maintains the integrity of content and eliminates noise disturbance. The experimental results indicate that the web content extraction based on the text density model is widely adapted to different data sources, and both accuracy and recall rate of the proposed approach are better than those existing statistical models.
关键词Web挖掘 正文抽取 文本密度 高斯平滑 最大子序列
收录类别CSCD
语种中文
CSCD记录号CSCD:4901889
引用统计
被引频次:4[CSCD]   [CSCD记录]
文献类型期刊论文
条目标识符http://ir.hfcas.ac.cn:8080/handle/334002/47133
专题中国科学院合肥物质科学研究院
作者单位1.中国科学技术大学自动化系
2.中国科学院合肥智能机械研究所
3.中国科学院合肥智能机械研究所
4.中国科学院合肥智能机械研究所
5.中国科学院合肥智能机械研究所
推荐引用方式
GB/T 7714
朱泽德,李淼,张健,等. 基于文本密度模型的Web正文抽取[J]. 模式识别与人工智能,2013,026.
APA 朱泽德,李淼,张健,陈雷,&曾新华.(2013).基于文本密度模型的Web正文抽取.模式识别与人工智能,026.
MLA 朱泽德,et al."基于文本密度模型的Web正文抽取".模式识别与人工智能 026(2013).
条目包含的文件
条目无相关文件。
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[朱泽德]的文章
[李淼]的文章
[张健]的文章
百度学术
百度学术中相似的文章
[朱泽德]的文章
[李淼]的文章
[张健]的文章
必应学术
必应学术中相似的文章
[朱泽德]的文章
[李淼]的文章
[张健]的文章
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。