大模型(LLM)是一种人工智能模型,旨在理解和生成人类语言。它们在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大,包含数十亿的参数,帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构,如转化器,这有助于它们在各种NLP任务上取得令人印象深刻的表现。

2022年底,OpenAI 推出的基于 GPT-3.5 的大型语言模型 ChatGPT,由于其优秀的表现,ChatGPT 及其背后的大型语言模型迅速成为人工智能领域的热门话题,吸引了广大科研人员和开发者的关注和参与。

为了方便大家阅读,只列出了论文标题、AMiner AI综述等信息,如果感兴趣可点击查看原文,PC端数据同步(收藏即可在PC端查看),每日新论文也可登录小程序查看。

如果想要对某篇论文进行深入对话,可以直接复制论文链接到浏览器上或者直达AMiner AI页面:
https://www.aminer.cn/chat/g/explain

Multi-Dimensional Insights: Benchmarking Real-World Personalization in Large Multimodal Models

【要点】:本文提出了MDI基准,用于全面、客观、准确地评估大型多模态模型在现实世界场景中对人类多样化需求的支持情况,并考虑了不同年龄段人群的需求差异。
【方法】:MDI基准包含超过500张图片,涵盖六个常见的生活场景,并为每张图片配备简单和复杂两种类型的问题,同时将问题按年龄段分为青年、中年和老年三类。
【实验】:研究使用了MDI-Benchmark数据集,通过评估模型在不同年龄段问题上的表现,发现即使是强大如GPT-4o的模型在应对现实世界应用时仍有改进空间,相关数据和评估代码已公开。
【链接】:https://www.aminer.cn/pub/676382b7ae8580e7ff1ef8d5

OmniEval: An Omnidirectional and Automatic RAG Evaluation Benchmark in Financial Domain

【要点】:本文提出了一个面向金融领域的全方位自动RAG评估基准OmniEval,具备多维度的评估框架,旨在全面评估RAG系统在多样化查询场景下的性能。
【方法】:通过构建基于矩阵的RAG场景评估系统,结合GPT-4自动生成和人工标注的多维度评估数据生成方法,以及多阶段评估系统,OmniEval能够对RAG系统的检索和生成性能进行综合评价。
【实验】:实验使用了广泛的测试数据集,验证了OmniEval的全面性,并开源了代码,实验结果显示RAG系统在不同主题和任务上的性能差异,指出了RAG模型在垂直领域改进能力的显著机会。数据集名称未在摘要中明确提及。
【链接】:https://www.aminer.cn/pub/676382b7ae8580e7ff1efa9e

Compressed Chain of Thought: Efficient Reasoning Through Dense Representations

【要点】:论文提出了一种名为Compressed Chain of Thought (CCoT)的框架,通过生成内容丰富且连续的、长度可变的思考令牌,以提高语言模型在推理任务中的效率和准确性。
【方法】:作者采用了一种新的方法,即生成压缩的、连续的思考令牌,而不是使用先前研究中固定的、离散的嵌入序列作为思考令牌。
【实验】:通过实验,作者展示了CCoT如何通过密集的内容表示进行额外推理,从而提高准确度,并且可以通过控制生成的思考令牌数量来适应性地调整推理改进。论文中未具体提及所使用的数据集名称。
【链接】:https://www.aminer.cn/pub/676382b7ae8580e7ff1efb47

Learning Flow Fields in Attention for Controllable Person Image Generation

【要点】:本文提出学习流场注意力机制(Leffa),通过在注意力层中显式引导查询向量关注参考图像的正确关键区域,以实现可控人物图像生成,有效减少细粒度纹理细节的扭曲,同时保持高图像质量。
【方法】:通过在扩散模型的基础上引入正则化损失来学习流场,使注意力机制能更精确地关注到参考图像中的对应区域。
【实验】:在多个数据集上进行了实验,包括虚拟试衣和姿态转换任务,结果显示Leffa在保持高图像质量的同时,显著降低了细节扭曲,且该损失函数模型无关,能提升其他扩散模型的性能。数据集名称未在摘要中明确提及。
【链接】:https://www.aminer.cn/pub/675a521eae8580e7ff733c6f

DeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding

【要点】:本文提出DeepSeek-VL2,一种大型混合专家(MoE)视觉语言模型,通过动态平铺视觉编码策略和Multi-head Latent Attention机制,显著提升了多模态理解能力,并在多种任务中表现出优于前作及现有模型的性能。
【方法】:模型采用了动态平铺视觉编码策略处理不同分辨率和宽高比的图像,并利用DeepSeekMoE模型结合Multi-head Latent Attention机制压缩Key-Value缓存到潜在向量,以实现高效推理和高吞吐量。
【实验】:DeepSeek-VL2在改进的视觉语言数据集上进行了训练,并在视觉问答、光学字符识别、文档/表格/图表理解和视觉定位等任务上进行了评估,结果显示其具有竞争力的性能,甚至达到了最先进的水平。该模型系列包含三种变体:DeepSeek-VL2-Tiny、DeepSeek-VL2-Small和DeepSeek-VL2,分别具有1.0B、2.8B和4.5B激活参数。具体数据集名称未在摘要中提及。
【链接】:https://www.aminer.cn/pub/675f9705ae8580e7ff26a126