类别
NFT 和数字艺术元宇宙与虚拟现实加密交易所新闻加密初创公司与风险投资加密市场分析加密活动与会议加密税务与合规加密货币的机构采用加密钱包与支付解决方案加密骗局与安全	区块链技术去中心化金融 (DeFi) 新闻山寨币更新投资策略与投资组合管理挖矿与质押比特币监管和法律更新稳定币与中央银行数字货币行业领袖访谈首次代币发行 (ICO) 和代币销售

页面
主页关于条款	搜索

请捐款 BTC

类别
NFT 和数字艺术元宇宙与虚拟现实加密交易所新闻加密初创公司与风险投资加密市场分析加密活动与会议加密税务与合规加密货币的机构采用加密钱包与支付解决方案加密骗局与安全	区块链技术去中心化金融 (DeFi) 新闻山寨币更新投资策略与投资组合管理挖矿与质押比特币监管和法律更新稳定币与中央银行数字货币行业领袖访谈首次代币发行 (ICO) 和代币销售

页面
主页关于条款	搜索

请捐款 BTC

类别
NFT 和数字艺术元宇宙与虚拟现实加密交易所新闻加密初创公司与风险投资加密市场分析加密活动与会议	加密税务与合规加密货币的机构采用加密钱包与支付解决方案加密骗局与安全区块链技术去中心化金融 (DeFi) 新闻	山寨币更新投资策略与投资组合管理挖矿与质押比特币监管和法律更新稳定币与中央银行数字货币	行业领袖访谈首次代币发行 (ICO) 和代币销售

页面
主页关于条款	搜索

请捐款 BTC

类别
NFT 和数字艺术元宇宙与虚拟现实加密交易所新闻加密初创公司与风险投资加密市场分析加密活动与会议	加密税务与合规加密货币的机构采用加密钱包与支付解决方案加密骗局与安全区块链技术去中心化金融 (DeFi) 新闻	山寨币更新投资策略与投资组合管理挖矿与质押比特币监管和法律更新稳定币与中央银行数字货币	行业领袖访谈首次代币发行 (ICO) 和代币销售

页面
主页关于条款	搜索

请捐款 BTC

2025年09月18号 23点50分25秒

众包数据集驱动人工智能实现类人编程革新

监管和法律更新

钱财 qian.cx

随着人工智能技术的飞速发展，如何让代码生成模型更接近人类工程师的开发习惯成为业界关注的焦点。通过创新的众包方式收集真实开发数据，为模型微调提供坚实基础，推动智能编程迈入新里程。

在人工智能和软件工程日益融合的今天，智能代码生成模型的能力已成为推动软件开发效率变革的关键因素。然而，大多数现有模型的训练数据主要来源于公开的代码库，这些数据往往忽略了人类工程师编写代码过程中的真实行为和习惯。为了让自动化编程代理更加贴近人类的思考和操作逻辑，研究者们提出了一种创新的方法——通过众包方式构建包含人类编程行为的庞大数据集，实现模型的行为克隆，从而提升模型的智能水平和实用价值。传统的代码生成模型通常只关注最终的代码成果，忽略了编写过程中的复杂动作，例如反复修改、调试、撤销和重做、跳转定位、版本控制操作等关键环节。事实上，任何经验丰富的开发者在写代码时都不会一气呵成，他们会不断在代码文件间跳转，修正错误，执行终端命令，并借助自动补全工具或大型语言模型辅助完成代码。捕捉并理解这些细节行为，对于构建能够模拟真实开发流程的智能代理至关重要。

为此，来自慕尼黑工业大学的Franz Srambical团队设计并推出了“crowd-code”扩展，这是一款适用于Visual Studio Code和Cursor编辑器的插件，能够在后台自动记录用户的编码操作，将其匿名化后上传至服务器，形成包含丰富开发行为的数据集。用户仅需安装该插件，无需额外操作，便能够参与数据众包计划。通过这种“装机即参与，安装即收获”的设计理念，极大降低了参与门槛，鼓励了更多开发者加入，共同打造真实、广泛的工程数据。数据采集注重用户隐私保护，所有上传的数据都会经过严格过滤和去标识化处理。用户在任何时间都可以通过状态栏一键终止数据收集，或者使用紧急按钮清除最近的操作记录，确保所有敏感信息均不会泄露。同时，用户在安装插件过程中需明确同意参与众包，且支持随时选择退出，体现了极高的透明度和对用户权益的尊重。

采用创意共享CC0许可协议发布数据，更是确保了数据的开放性和可再利用性，将推动整个开发社区乃至学术界的进步。除了直接从用户的IDE行为中采集数据，团队还计划将crowd-code作为标注工具，结合逆动力学模型，自动注释互联网上大量的IDE屏幕录制视频。这一创新尝试有望解锁海量未结构化软件开发视频数据，进一步丰富模型训练的语料库，提高代码生成和理解的准确性。通过持续扩大数据维度和深度，智能编程模型将更好地捕捉人类的复杂思考过程和工程判断，助力实现更加可靠、高效且智能的开发助理。 “数据即石油”，这一理念在人工智能领域尤为突出。基础模型往往只展现网络上平均的编程水平，而要实现高阶技能和卓越表现，必须依赖专门采集的丰富多样的训练数据。

crowd-code项目的成功之处在于从根本上改变数据的获取方式，从代码最终产出转向记录整个编程旅程，反映开发者的真实行为轨迹。这不仅能够扩充训练数据的规模和质量，还为模型赋能动态交互和实时辅助打下坚实基础。这一项目不仅代表了技术创新，更是一种理念的转变——从开放源码(Open Source)到开放工程(Open Engineering)。传统的开源运动侧重于代码成果的共享，而开放工程推动将开发过程中的所有价值都纳入考量，强调开发者的每一刻努力、思考和决策均值得被尊重和利用。crowd-code借助技术手段实现这一愿景，构建社区协作与数据共享的新生态。目前，crowd-code的开发团队正在稳步优化扩展的性能和用户体验，并持续完善数据清洗和匿名化流程。

期待更多社区成员开启这款插件，共同贡献宝贵的开发行为数据。随着数据不断累积，基于这些真实行为数据微调的智能代理将具有更强的上下文理解力，更能猜测开发者意图，进而极大地提升编程效率。未来，智能助理能够主动捕捉开发者的操作习惯，精准地推荐代码片段，自动修复错误，甚至激发创新性的代码重构建议，使软件开发更接近人类智慧的极致表现。借助crowd-code带来的众包数据集，人工智能编程领域正迎来一个崭新的时代，赋能开发者，推动整个软件产业向前发展。总的来说，crowd-code项目不仅提供了一条可行路径以实现智能编程代理类人化，更为开发社区搭建了开放透明的协作平台。它体现了数据驱动智能创新的重要性以及尊重用户隐私的责任感。

随着团队和社区的共同努力，未来软件开发必将实现人与人工智能的深度协同，共创更加高效和智能的编程生态环境。