据美国趣味科学网站3月14日报道,一项新研究发现,人工智能(AI)摘要可能对购买决策产生重大影响。该研究提出一些有趣但可能令人不安的问题,有关我们对AI生成内容的信任程度。
尽管大多数美国人表示自己不信任AI,但研究人员发现了一项令人震惊的新指标,似乎表明情况恰恰相反:相较于阅读人类撰写的在线评论摘要,人们在阅读由AI生成的摘要后,更有可能购买相关商品。然而,当就这些产品对AI进行询问时,AI在60%的情况下产生了幻觉。
来自美国加利福尼亚大学圣迭戈分校的研究团队指出,这是第一项揭示大语言模型(LLM)所引发的认知偏差如何对用户行为产生实际影响的研究。他们还表示,这也是第一个量化衡量AI对人类影响的项目。
这项研究结果于2025年12月发表在《第14届国际自然语言处理联合会议暨计算语言学协会亚太分会第4届会议论文集》上。研究分为多个阶段。
首先,科学家让人工智能对产品评论和媒体采访进行归纳总结,然后让人工智能对新的描述进行事实核查,以确定它们是否属实。在第二项任务中,科学家向AI展示了新闻报道的描述和其伪造版本,并同样要求对这些描述进行事实核查。
科学家在研究报告中写道:“相比对真实新闻和伪造新闻的核查准确率,对严格准确性的判断持续偏低,这凸显了一个关键的局限性:始终无法可靠地区分事实和捏造。”
最引人注目的发现涉及在线产品评论。在阅读由AI生成的产品摘要后,参与者表示有兴趣购买产品的可能性远高于在阅读人类评论者撰写的摘要后。
研究人员提出了人们更有可能根据AI摘要购买商品的两个原因。首先,LLM倾向于更多地关注输入文本的开头,这种现象被称为“中间迷失”。研究报告主要作者、研究助理和机器学习与人机交互讲师阿比尔·伊萨在之前的研究中提到了这一点。
其次,当处理未包含在其训练数据中的信息时,LLM的可靠性会降低。
伊萨在接受采访时说:“模型往往无法准确判断新闻描述的事件是否真实发生。它可能会错误地声称某事件从未发生,即使该事件在模型训练完成后确实发生过。”
在测试过程中,研究团队发现聊天机器人在26.5%的情况下改变了真实用户评论的情感倾向,并且当用户询问关于评论的问题时,它们有60%的时间会产生幻觉。
该项目选择了结论非常正面或非常负面的产品评论样本,然后研究人员让70名参与者阅读对普通消费品的原始评论或聊天机器人生成的评论摘要。
该项目使用了6个LLM、1000条电子产品评论、1000次媒体采访,以及一个包含8500条新闻的数据库。项目通过量化内容情绪的表述变化、对样本靠前文本的过度依赖,以及幻觉现象来衡量偏见。
当参与者阅读(项目给出的)正面产品评论摘要时,他们表示会购买该产品的概率为83.7%;而在阅读原始评论时,这一比例为52.3%。
科学家们就此得出结论:即使是微小的表述变化,也能显著扭曲消费者的判断和购买行为。(编译/王海昉)
