随着社交媒体的普及,Instagram作为全球第三大社交平台,其用户数量已突破20亿。这一庞大的用户基础带来了丰富的行为数据,也伴随着用户可能陷入的过度使用问题,引发了心理健康界对“问题性社交媒体使用”现象的关注。问题性Instagram使用指的是用户对平台的过度或强迫性使用,带来生活功能、工作效率以及心理健康的负面影响。鉴于此,研究者们不断探索新的手段,以更高效、精准地识别和预测这种潜在的行为问题。近年来,人工智能领域迅速发展的大型语言模型(Large Language Models,LLMs)如OpenAI的GPT-4o和谷歌的Gemini 1.5 Pro,成为心理健康数字化研究的前沿工具,它们能够从有限的数字痕迹中提取深层次心理信号,辅助对用户心理状态进行推断。通过对Instagram用户的行为数据,如每日使用时长、周发帖和故事数量、粉丝和关注数等指标进行分析,这些模型能够推测用户可能存在的问题使用倾向。
此次研究由意大利都灵大学心理系的Davide Marengo和Michele Settanni开展,聚焦于探讨是否可以仅凭用户的基本参与数据,通过LLMs推断出用户的自我报告问题性Instagram使用评分。研究对象涵盖775名活跃的意大利Instagram用户,涵盖18至63岁的广泛年龄段。数据收集采用了点对点的滚雪球抽样法,确保了较为多样的样本结构。为衡量问题性使用,研究采用了改编自Bergen社交媒体成瘾量表(BSMAS)的问卷,涵盖了诸如使用前思考计划时间、情绪调节需求以及强迫性使用等六大维度。核心研究方法是通过精心设计的提示语(Prompt),将上述Instagram使用指标输入GPT-4o和Gemini 1.5 Pro模型,模型按照5分制预测各项成瘾症状得分,最终得出总分用于与自我报告数据进行对比验证。结果显示,两大模型推断的成瘾倾向得分具备高度内部一致性,表明模型在判别行为模式时的稳定性极佳。
尤其是关于使用前思考(Salience)、忍耐度提升(Tolerance)和戒断反应(Withdrawal)这几项,两个模型的预测结果高度吻合,表明LLMs对核心成瘾特征的捕捉能力较强。尽管LLMs推断得分存在一定程度上的系统性偏差,GPT-4o倾向于给出较高的成瘾风险评估,而Gemini较为保守,但整体它们与用户自评的相关性仍显著,尤其是GPT-4o的总分与自评得分的相关系数达到0.414,显示了令人瞩目的预测能力。研究进一步利用传统机器学习方法,将LLM推断得分与传统的Instagram使用指标结合,开展交叉验证的回归与随机森林预测分析。结果表明,加入LLMs的得分后,预测模型对于用户自我报告问题性Instagram使用的解释力明显提升。值得注意的是,GPT-4o的推断得分在无训练状态下,即零样本学习环境下,已能表现出对复杂非线性行为模式的解读能力,其预测准确度不逊于直接基于原始Instagram使用数据训练的随机森林模型。这一发现凸显了预训练大型语言模型不仅是语言理解的利器,亦蕴含深厚的行为洞察力,能在缺乏充足标签数据的场景中发挥强大作用。
与此同时,模型不同表现揭示各自训练目标、架构设计以及训练数据规模差异所导致的性能差异,为未来模型优化与应用提供了方向。研究也指出,虽然基于行为数据的LLM推断具有较高潜力,但无法完全替代用户的主观体验和情境理解,须结合更丰富的个体背景信息以提升准确度。伦理层面,利用LLMs进行心理状态推断同样引发隐私保护与滥用风险的深刻讨论。此研究通过匿名化处理、避免个人身份信息采集等手段降低了潜在的道德风险。未来研究将需在确保用户数据安全的前提下,探索模型解释性、透明度及用户自主权保障的完善方案。此外,本研究采用的零样本提示策略为验证模型基本能力提供了保守估计,未来引入少量示例提示(few-shot prompting)及链式思维引导(chain-of-thought prompting)或有助于提升模型对复杂心理问题的推理与识别能力。
考虑到本研究样本以意大利成人用户为主,且采用滚雪球便利抽样,未来有必要扩展更具代表性和跨文化的样本,结合客观数字痕迹采集与纵向设计,进一步揭示Instagram使用行为演变与心理健康间的动态关联。综上所述,大型语言模型借助海量的预训练知识和强大的推理能力,展现了从有限社交媒体参与指标中识别问题性使用倾向的可行性。尤其是在资源有限或数据标注不足的环境中,LLMs为数字心理健康筛查提供了一种创新、低负担、且潜在高效的解决方案。未来,这类技术不仅有望助力研究者更好理解社交平台用户的行为风险,也为制定个性化干预策略与心理健康促进措施带来新机遇。数字时代的心理健康管理正不断迈向智能化,LLMs作为关键工具,正逐步打破传统评估方法的桎梏,推动心理健康服务的普及与精准发展。