结合字词向量的主题向量模型
DOI:
CSTR:
作者:
作者单位:

作者简介:

通讯作者:

中图分类号:

TP183;TN01

基金项目:

河南省科技攻关项目(162102110120)资助


Mixing topic models and character word embeddings to make lda2vec
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    为了将已有的英文主题向量模型更好地应用于中文的主题向量训练,并且解决主题个数事先确定的缺点。本文将原有模型中,文档向量和词向量线性相加的方式改为内积的方式,并结合文档向量、字向量和词向量三者一起训练主题向量。当得到主题向量后通过聚类方法将相似的主题聚集在一起,以此来确定主题个数。实验表明,该方法训练出的主题词的相关性较原有模型和传统模型有所提升,并且能够获得较为合理的主题个数,同时,还能够得到词向量,主题向量和文档向量。

    Abstract:

    In order to better apply the original English topic vector model to the training of Chinese topic model vector, and solve the shortcomings of setting the topic number. This paper changes the linear addition of the document vector and the word vector in the original topic vector model to the inner product. and combines with the document vector, character vector and word vector to train the topic vector. When the topic vector is obtained, the similar topics are gathered together by the clustering method. Meanwhile, it can determine the number of topics. Experiments show that the relevance of the topic words trained by this method is improved compared with original and traditional model, and the number of themes can be obtained reasonably. At the same time, word vector, topic vector and document representation can be obtained.

    参考文献
    相似文献
    引证文献
引用本文

张青,韩立新,刘合兵.结合字词向量的主题向量模型[J].电子测量技术,2019,42(3):49-53

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:
  • 最后修改日期:
  • 录用日期:
  • 在线发布日期: 2021-07-20
  • 出版日期:
文章二维码