标签
本文介绍了一个俄罗斯政府官方演讲的关联多模态数据集,包含文本、图像、元数据和主题标注,旨在支持社会科学研究和政治领域的大语言模型应用。
本文提出一种基于大语言模型的主题建模方法与评估框架,兼顾可解释性、主题特异性与极性立场一致性,并在利用大规模日企评论数据解释员工士气等外部结果方面表现出更强的解释力。
# 弥合社区需求与媒体内容差距的洞察 来源:[https://arxiv.org/html/2604.16651](https://arxiv.org/html/2604.16651) ## 移民之声与地方新闻:弥合社区需求与媒体内容差距的洞察 作者:Paula Dolores Rescala [paula\.rescala@epfl\.ch](https://arxiv.org/html/2604.16651v1/mailto:[email protected]),EPFL 瑞士 Victor Bros [vbros@idiap\.ch](https://arxiv.org/html/2604.16651v1/mailto:[email protected]),Idiap Research Institute 及 EPFL 瑞士 与 Daniel Gatica
CobwebTM是一种低参数的终身分层主题建模方法,将Cobweb算法应用于连续文档嵌入,实现无监督主题发现和动态分层组织,无需预定义主题数量。该方法将增量符号概念形成与预训练表示相结合,在避免灾难性遗忘的同时实现强大的主题一致性。