HFCAS OpenIR
融合形态特征的最大熵蒙古文词性标注模型
其他题名Fusion of Morphological Features for Mongolian Part of Speech Based on Maximum Entropy Model
张贯虹1; 斯劳格劳2; 乌达巴拉3
2011
发表期刊计算机研究与发展
ISSN1000-1239
摘要最大熵模型以其能够较好地包容各种约束信息及与自然语言模型相适应等优点在词性标注研究中取得了良好的效果.因此,将其作为基本框架,提出了一种融合语言特征的最大熵蒙古文词性标注模型.首先,根据蒙古文构词特点及统计分析结果,定义并选取特征模板,利用训练语料提取了大量的候选特征集合,针对错误或者无效的特征通过设置一些规则筛选特征.然后,训练最大熵概率模型参数.实验结果表明,融合蒙古文形态特征的最大熵模型可以较好地标注蒙古文.
其他摘要Part of speech tagging is one of the basic research for natural language processing fields, which plays an important role on the syntactic analysis, semantic analysis and machine translation, etc. Maximum entropy model is an outstanding statistical model for its good integration of various constraints and it has been favored in the part of speech tagging research. An approach combining linguistic morphological features for Mongolian part of speech tagging based on maximum entropy model is proposed in this paper. Mongolian has great and long history. Nonetheless, there is less research about Mongolian language processing. Mongolian is a typical agglutinative language that is characterized by rich morphology, with a high level of ambiguity. Firstly, based on the analysis of Mongolian scripts, the context feature and internal feature templates are defined and extracted from the training corpus. Then, various morphological features of words are integrated in the maximum entropy model and the IIS algorithm is employed to calculate the parameters of maximum entropy model. Experimental results on the close and open testing set prepared for Mongolian POS tagging task show that the integration of morphological features of the maximum entropy model outperforms the HMM model and can be fitful for Mongolian scripts.
关键词形态特征 最大熵模型 蒙古文 词性标注 参数估计
收录类别CSCD
语种中文
CSCD记录号CSCD:4408067
引用统计
被引频次:6[CSCD]   [CSCD记录]
文献类型期刊论文
条目标识符http://ir.hfcas.ac.cn:8080/handle/334002/96843
专题中国科学院合肥物质科学研究院
作者单位1.合肥学院计算机科学与技术系
2.内蒙古大学蒙古学学院
3.中国科学院合肥物质科学研究院
推荐引用方式
GB/T 7714
张贯虹,斯劳格劳,乌达巴拉. 融合形态特征的最大熵蒙古文词性标注模型[J]. 计算机研究与发展,2011,048.
APA 张贯虹,斯劳格劳,&乌达巴拉.(2011).融合形态特征的最大熵蒙古文词性标注模型.计算机研究与发展,048.
MLA 张贯虹,et al."融合形态特征的最大熵蒙古文词性标注模型".计算机研究与发展 048(2011).
条目包含的文件
条目无相关文件。
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[张贯虹]的文章
[斯劳格劳]的文章
[乌达巴拉]的文章
百度学术
百度学术中相似的文章
[张贯虹]的文章
[斯劳格劳]的文章
[乌达巴拉]的文章
必应学术
必应学术中相似的文章
[张贯虹]的文章
[斯劳格劳]的文章
[乌达巴拉]的文章
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。