许多学者在踏入教师岗位的头几年,会把精力放在论文、项目和学生培养上。对我而言,第一个完整的十年恰好在二零二四年八月划上句点,这段时间既是探索与积累,也是从问题发现到系统落地的密集实践期。回顾这十年,我更愿意把注意力放在若干具有代表性的研究与工程成果上,通过它们来反思研究策略、工程取向与用户导向的方法论,同时提出对未来研究方向的判断与建议。 在可视化方向上,我的兴趣由一次学术讲座引发,随之扩展为如何将可视化分析的推荐、检索与交互自动化与可扩展化。最早的尝试把可视化推荐问题转化为针对大量 SQL 查询的搜索问题,以数据差异性为优先级,目标是快速从海量可能的可视化中挑出最有意义的结果。这个思路的重要贡献在于把多查询优化与近似查询处理技术带进可视化推荐的场景,显著提高了在大数据上发现异常模式或显著差异的效率。
这类想法后来被主流商业 BI 工具以不同形式采纳,成为自动化洞察生成的一部分。 不仅于此,我和团队还尝试把用户驱动的图形检索变得可操作化。通过一套支持"以图搜图"和模式草绘的交互语言,研究工作探索了如何在大量可视化中搜索相似趋势,如何把复杂的组合查询表达为高层次的图形模式检索。这项工作延伸出了更通用的可视化分析语言,能够在高维度、多度量的场景中支持诸如"对于所有与某商品销售趋势相似的类别,找出利润增长最多的那些"的复杂比较查询。尽管这样的语言在当时看似超前,但它展示了在科学探索和工程分析领域中,表达高层次图形模式检索的潜力。 用户工作流的融入是可视化研究最难也最关键的一环。
早期研究虽在算法和系统层面构建了能力,但要真正让数据科学家日常使用,必须将功能无缝嵌入现有工具链。基于这一认识,我们开发了一个与主流数据框架紧密结合的开源可视化推荐工具,能够在打印数据框时即时给出可视化建议并支持视图固定与背景缓存计算,从而在数据清洗与探索阶段提供持续的可视化反馈。这类产品化实践带来了显著使用量级与用户故事,证明了"与现有工具无缝集成"对于实现广泛影响的重要性。 电子表格一直是被严重低估的平台。许多用户在日常工作中依赖表格完成关键的数据管理与分析任务,然而现有电子表格在规模、性能与交互体验上存在显著短板。为了突破这些限制,我们尝试从存储层、计算层和交互层三方面重新设计,使表格在百万行规模下仍保有良好的响应性与可操作性。
在存储设计层面,混合数据模型被用来同时高效支持连续的表格区域与分散的公式或单元格值,特殊索引结构保证顺序访问和动态增删行列时的高效更新。在计算体验层面,我们提出了不同于传统"等待所有计算完成"的交互方式,通过把受影响单元格的计算置于后台并在界面上以进度条提醒,迅速将未受影响的可操作内容返还给用户,从而显著提升感知交互速度。为了构建基于证据的改进,还做了主流电子表格软件的系统级基准测评,揭示了在常见工作负载下这些工具的性能瓶颈,为后续优化提供了实证支持。 数据版本管理是另一个在十年中获得深入思考的领域。传统源代码的差异表示并不能很好地服务于需要复杂查询、回溯和合并的数据版本库。我们探索了以版本与元组之间的关联为核心的数据表示,并提出了智能分区与查询扩展,以减少冗余并提高跨版本查询的效率。
特別重要的是,这类方案尽量采用"加固式"或"捆绑式"的方式在已有数据库之上实现,不要求用户彻底更换基础设施,从而极大地降低了采用阻力。这种"bolt-on"策略贯穿了我们许多工程化尝试:与其构建全新的生态,更可行的路径是增强现有工具的能力,让用户可以在不改变习惯的前提下获得新功能。 数据框架和可扩展计算栈的工作注重兼顾兼容性与性能。面对研究社区和工业界普遍使用的脚本化数据框架,我们的目标是设计一套能够替换现有库而保持 API 兼容的并行化执行引擎。围绕行、列和块三种粒度的分解策略,结合算子级并行化与流水线优化,我们能够在不改变用户代码的情况下显著提高处理规模和吞吐量。实践证明,提供"即插即用"的替换方案既能加速科研传播,也能带来广泛的开源采用与产业化机会。
当研究走向人机协同机器学习时,系统工程与优化决策的价值更加凸显。在交互式机器学习流程中,用户往往对一整条管道进行微小的调整,却需要重复整个训练或评估过程。针对这种迭代式工作流,研究将部分计算复用问题建模为割点优化,通过在重新计算与重用之间进行成本权衡为每一步做出最优选择,从而减少冗余开销并加快用户试验循环。将经典的图论与流问题方法引入系统决策中,是将理论工具工程化的一个优秀示例。 交互式笔记本的可复现性问题同样不容忽视。笔记本的自由度是其价值所在,但也正因为单元的非线性执行顺序导致了难以复现的状态。
我们通过结合静态分析与运行时信息,为编辑器提供轻量级的"可安全重跑"提示,标注哪些单元在当前上下文中可以安全重启,哪些单元因依赖关系或外部状态而不安全。这样的可视化提示虽然看似只是小的 UX 改进,但对日常数据分析与教学场景的错误减少与复现性提升具有直接且明显的效果,且在开源社区中获得了显著下载量与社区反馈。 贯穿这些项目的是若干反复出现的主题。第一,增强现有工作流通常比强行替换工作流更容易获得用户接受度。研究成果若能以插件、包装器或"drop-in"替代的形式出现,往往更容易在真实世界中扩散。第二,早期而深度的用户参与至关重要。
主动与不同学科和行业的实际用户合作,可以避免陷入"解决非问题"的陷阱,并帮助研究者把握正确的可用性与优先级取舍。为此,学习 HCI 方法論、设计用户研究与可用性测试是非常值得的投资。第三,专注于被忽视的空间往往能带来高回报。像电子表格、数据框架与笔记本这类长期被工业用户广泛使用但学术研究相对稀少的领域,蕴含许多低悬果实,深入探索能容易定义并影响新的研究方向。第四,工程与构建大系统的过程中,往往能发现更接近真实需求的研究问题。与只做理论或算法相比,系统性工程能够把想法推向实践,从而在用户反馈与实际使用中逐步迭代与完善。
此外,研究的影响力常常难以提前预测。早期对于可视化推荐的工作,在当下看似学术性较强,但在智能代理与自动化分析崛起的背景下,这些技术的价值正在再次凸显。同样,数据版本管理的设计在面对需要并行化探索与分支合并的智能代理时,显露出更长远的战略意义。学术研究者应保有长远视角,理解某些想法可能在多年后因外部环境变化而迎来广泛应用。 对于年轻学者与研究团队有几点实用建议。始终把用户体验与工作流融入研究目标;在可行的范围内优先考虑"向后兼容"或"无摩擦集成"的方案;在早期就搭建可用的原型并与真实用户测试,以获取方向性反馈;重视工程实现和系统稳定性,确保成果不仅在论文中可复现,也能在开源或工具层面被社区采用。
与学生和合作者保持开放的探索精神,允许偶然性和兴趣驱动的新方向出现,因为许多创新正是由学生的好奇与驱动带起来的。 回望过去十年,我最深刻的体会是学术与工程并不是对立的路径,而是相辅相成。理论提供问题建模与算法工具,系统工程把理论变为可用的产物,而用户研究则把产物变得有用。未来十年,随着自动化代理、海量交互式分析与跨学科应用的兴起,这些交叉领域的研究将继续带来新的挑战与机会。作为研究者,我们应当在技术深度与可用性之间不断寻找平衡,既要敢于构想更宏大的抽象,也要愿意将想法锤炼成被真正使用的系统。 教职生涯的第一个十年充满了试错、合作與反思。
与优秀学生们共同完成的那些日夜工作,既是学术产出的来源,也是我教学与指导理念的根基。对未来抱持好奇、对用户保持谦卑、对工程和产品化保持耐心,或许是继续前行最好的策略。未来的道路还很长,但这段回顾让我对接下来的方向更加清晰与期待。 。