Analyzing LLM Behavior in Dialogue Summarization: Unveiling Circumstantial Hallucination Trends

✨ 标题: 分析大型语言模型在对话摘要中的行为:揭示情境幻觉趋势

✨ ArXiv:2405.21040

✨ 机构: Northeastern University

背景 🔍

在对话摘要领域,大型语言模型(LLMs)展现出强大的生成能力,但同时也伴随着“幻觉”现象,即生成的摘要包含无直接证据支持的信息。尽管LLMs在新闻摘要等领域已受到广泛评估,但在对话摘要方面的评估尚显不足。本研究旨在填补这一空白,通过深入分析LLMs在对话摘要中的忠实度,特别是针对“情境幻觉”趋势。

方法 🔥

本研究采用了以下方法:

人类注释评估:通过人工细致地标注由GPT-4和Alpaca-13B生成的对话摘要,识别源文本中缺乏证据或信息扭曲的区域。

数据集选择:选择了SAMSum和DialogSum两个对话摘要数据集,这些数据集之前用于微调模型的基准测试。

错误分类创新:提出了一种新的分类法,细分为逻辑错误、世界知识错误、指代错误、比喻误解、无意义错误,并特别引入“情境推理”类别,针对LLMs基于上下文但无直接证据的推断。

模型比较:对比LLMs与微调模型(FT-Summ)生成的摘要,分析错误率和类型的差异。

自动错误检测方法评估:系统评估现有最先进的错误检测器在LLM生成摘要上的性能。

基于提示的细粒度错误检测:引入ChatGPT-Span和ChatGPT-MoE两种基于提示的方法,针对特定错误类型进行优化检测。

性能优化:针对现有自动错误检测方法在检测细微错误方面的不足,提出优化策略,特别是针对“情境推理”错误。

公开基准:为促进研究,公开了详细的人类注释和基准数据集。

总结 💯

论文深入探讨了LLMs在对话摘要中的表现,尤其是“情境幻觉”现象。通过创新的错误分类和基于提示的检测方法,本研究不仅揭示了LLMs在生成摘要时的挑战,也为未来的研究和模型改进指明了方向。