当前位置:首页 > Deepseek最新资讯 > 正文内容

探索跳跃式思维链:DeepSeek创造力垫底,Qwen系列接近人类顶尖水平

5个月前 (03-03)Deepseek最新资讯274

在大语言模型 (LLM) 的研究中,与以 Chain-of-Thought 为代表的逻辑思维能力相比,LLM 中同等重要的 Leap-of-Thought 能力,也称为创造力,目前的讨论和分析仍然较少。这可能会严重阻碍 LLM 在创造力上的发展。造成这种困局的一个主要原因是,面对「创造力」,我们很难构建一个合适且自动化的评估流程。

图 1。

过去大多数创造力测评在探索 LLM 的 Leap-of-Thought 能力的时候,仍然遵循普通大模型测评中的选择、排序等评估类型。尽管这种评估方式对逻辑思维能力的考察非常有效,但是在对创造力的评估中则不太合理。

如下图所示,如果要求阅读所给图和图中文字,并为图中「?」部分填入一句话,使得整体富有创造力且幽默。如果这个任务是一个选择题型的任务,并提供了「A. 可以帮忙扶一下我吗?」和「可以帮我解开手铐吗?」,LLM 可能会在无需任何创造力的情况下选择 B,因为 A 选项很常规,而 B 选项很特别。

图 2。

评估 LLM 的创造力应该是「考察其生成创新内容的能力」,而不是「考察它是否能判定创新的内容」。在当前的研究范式中,通过人类评估或者 LLM-as-a-judge 的方式符合这一要求。然而,尽管人类评估的准确率最高且符合人类一般价值观,但是这种方式不可持续且成本非常高。

而 LLM-as-a-judge 这种大致通过 zero-shot 或者 fine-tuning 一个 LLM 来对目标进行评分的方式,其在创造力任务上的评估能力目前仍然处于初级阶段,而且不是很稳定。

面对这些困难,来自中大、哈佛、鹏城、新加坡管理大学的研究者另辟蹊径,通过研究 LLM 产生人类高质量创新内容所需要的代价 (也可以看作是 LLM 产生内容与人类水平创新内容的距离),建立一个多轮交互的可信且自动化创造力评估范式 LoTbench。研究成果登上了 IEEE TPAMI。

论文题目:A Causality-aware Paradigm for Evaluating Creativity of Multimodal Large Language Models

论文链接:https://arxiv.org/abs/2501.15147

项目主页:https://lotbench.github.io

任务场景

本论文是 CVPR'24 中「梗王」大模型(Let's Think Outside the Box: Exploring Leap-of-Thought in Large Language Models with Creative Humor Generation)的期刊扩展,其考虑的创造力基础任务是如图 2 所示的,看图并直接生成补全文字中的空缺处,使得图文整体显得创新且幽默。

这类任务是日本传统游戏「大喜利」游戏的一种,在中文互联网社区也被称为日式冷吐槽。它具有如下一些特点:

1. 这类日式冷吐槽游戏要求看图并补全具有创意且幽默的文字,对创造力要求很高,是典型是创造力问题;

2. 这类日式冷吐槽游戏完美符合当前多模态大模型的输入输出格式,即输入时图文,输出仅为文字,而且是大模型最擅长的文字补全任务;

3. 这类日式冷吐槽游戏由于在互联网上热度非常高,有大量高质量人类标注数据和带有 ranking 信息的点评数据,对构建数据集很有帮助。

综上所述,这类日式冷吐槽游戏是少有的适合多模态 LLM 进行创造力测评的理想平台。

任务内容

图 3。

与一般大模型测评 (Standard Evaluation) 中选择、排序等范式不同的是,论文所提出的 LoTbench 考虑的是通过 LLM 产生人类高质量创新内容 (High-quality human-level response, HHCR) 所需要的总轮数构建一个创造力得分。

如图 3 右所示,对于一个 HHCR,LLM 在给定条件下,多轮地尝试生成和 HHCR 具有异曲同工之妙的创新响应。当 LLM 以很少的轮数产生 HHCR,可以认为 LLM 具有不错的创造力。反之,如果 LLM 需要很长的轮数,甚至无限轮 (即无法到达),则可以认为在当前 HHCR 中创造力不足。

图 4。

基于上述思想,图 4 展示了所提出的 LoTbench 的具体流程:

精选具有人类高质量创新内容 (HHCR) 的日式冷吐槽游戏的数据,构建 MLM task,即要求 LLM 每一轮根据图文信息,生成 Rt 补全给定文字空缺;

判断生成的 Rt 和 R (即 HHCR) 是否是异曲同工之妙 (different approach but equally satisfactory outcome, DAESO)。若是,则开始通过轮数计算创造力分数,否则进入第 3 步;

要求待测 LLM 根据测评时历史交互信息,提出一个一般疑问句 Qt. 测评系统根据 HHCR,返回 Yes 或者 No;

整理当前轮交互的所有信息,和系统提供的提示,称为下一轮的 history prompt,重新进入第 1 步生成创新响应环节。

创造力分数 Sc 的构建与 n 个 HHCR samples 在 m 次重复实验有关,具体如下,

创造力分数 Sc 满足如下特点:

1. 创造力分数与轮数成反比,轮数越少越具有创造力;

2. 当轮数趋于无限时,创造力分数趋于 0,即当前 LLM 无法到达给定 HHCR;

3. 考虑到创造力难度和多样性,创造力分数基于多次实验;

如何判断异曲同工之妙(DAESO)?

why 异曲同工之妙 (DAESO)?

创造力任务的一大特点是多样性,对于一个给定的填词条件,玩家可以有很多符合条件的响应。如图 5 所示,「有活力的闹钟」和「有活力的手机」都有相似的创新幽默之处。但是我们不能简单地通过文字匹配、语义计算就能判断这一点,必须引入异曲同工之妙地分析。

图 5。

how 异曲同工之妙 (DAESO) 判断?

图 6。

在论文中,作者提出满足异曲同工之妙 (DAESO) 的两个响应需要满足至少两个条件:

1. 两个响应有相同的核心创新解释;

2. 两个响应有相同的功能相似性;

功能相似性和语义相似性略有不同,如图 6 (a) 所示。从语义角度,诺基亚和三星的语义相似度高于诺基亚和锤子;但是在砸核桃场景下,诺基亚则和锤子更加相似。如果两个响应仅仅只有创新解释一样,而不是某种功能上的相似的话,那么响应可能会偏离地比较大,比如对应图 5 的例子也可以是「有活力的跳蚤」,但是跳蚤没有体现「发出声音」的功能;另外,如果两个响应仅仅只有功能一样,那么响应可能会没 get 到点,比如对应图 5 的例子也可以是「有活力的鼓」,但是鼓没有很好体现由于跳动所带来的活力感。

在具体 DAESO 判断的实现中,作者首先为每一个 HHCR 进行非常详细的解释标注,即解释为什么给定的 HHCR 是幽默且富有创造力的。接着配合突破的 caption 信息,可以利用 LLM 在文本空间中构建对应的因果链条,如图 6 (c) 所示。并构建特定的 instruction 来对 DAESO 的两个提出的条件,在文本空间中判断。

在文中,基于 GPT 4o mini 可以达到较少计算代价的情况下,实现对 DAESO 有 80%-90% 的判断准确率。另外鉴于 LoTbench 会进行多次重复实验,因此 DAESO 的判断的准确率可以进一步得到保证。

测评结果

图 7。

通过对当前主流 LLM 的测评,如图 7 所示,可以发现当前的 LLM 在 LoTbench 测评的意义下,创造力并不强。但和不同级别的人类相比,LLM 的创造力是具有超越人类的潜力的。

图 8 可视化了测评榜单中排名前二的 Gemini 1.5 Pro 和 Qwen-VL-max 的创新响应,其中红色部分为 HHCR,而蓝色部分为被测 LLM 的创新输出。值得注意的是 DeepSeek 最近推出的多模态模型 DeepSeek-VL2 和 Janus-Pro-7B 系列也进行了评估,结果显示其创造力仍然处于人类初级阶段。期待 DeepSeek 团队后期推出更加先进的多模态大语言模型。

图 8。

原标题:《探索跳跃式思维链:DeepSeek创造力垫底,Qwen系列接近人类顶尖水平》


“探索跳跃式思维链:DeepSeek创造力垫底,Qwen系列接近人类顶尖水平” 的相关文章

用了DeepSeek,工作效率竟然提升了300%

用了DeepSeek,工作效率竟然提升了300%

以下是一份结合最新信息与实战技巧的 DeepSeek保姆级教程,涵盖基础操作、进阶技巧与行业应用,帮助用户从入门到精通,全面提升工具使用效率: 一、基础篇:快速上手DeepSeek...

DeepSeek 爆火,为工业转型带来启示

DeepSeek 爆火,为工业转型带来启示

在当今竞争激烈的制造业市场中,数字化转型已成为企业生存与发展的关键。而最近爆火的 DeepSeek,为制造业企业的数字化转型带来了新的契机。作为制造业企业的 CIO,今天就来和大家聊聊如何利...

当工会就业服务接入DeepSeek

当工会就业服务接入DeepSeek

“我是学计算机的,对口工作有哪些?”“我是一名会计,想跳槽做文员,请问有合适我的岗位吗?”……过去,对于福建省福州市总工会稳岗就业创业服务超市的社群服务人员陈晓瑜来说,要在对话窗口里解答任意一条求职者...

DeepSeek梁文锋亲自挂名,公开新注意力架构NSA

DeepSeek梁文锋亲自挂名,公开新注意力架构NSA

机器之心报道机器之心编辑部DeepSeek 新论文来了!相关消息刚刚发布到 𝕏 就吸引了大量用户点赞、转发、评论三连。据介绍,DeepSeek 的这篇新论文提出了一种新的注意力机制 ——NSA。这是一...

“数智行动” 下的平安人寿:借助DeepSeek,重塑业务格局

“数智行动” 下的平安人寿:借助DeepSeek,重塑业务格局

在数字化浪潮席卷全球的当下,国家大力倡导发展“新质生产力”,加速推动产业数字化、智能化转型。作为保险行业的领军企业,平安人寿紧抓时代机遇,拥抱技术革新,率先开启“数智行动”,积极推进DeepSeek模...

DeepSeek什么都好,但真的不建议这样用……

DeepSeek什么都好,但真的不建议这样用……

进入三月,DeepSeek的热度有增无减,从最初面市到现在一个多月,首批用户体验后的反馈期终于来了。我身边的朋友都用疯了!有用来算命的,家里祖孙三代算到再无可算,DeepSeek娃说命里缺金,家长也管...