Skip to main content

开源世界每天都有数不尽的项目涌现,但如何准确衡量一个开源项目的健康度一直是个难题。幸运的是,现在我们有了开源项目的健康体检医生——OSS Compass,最近它的 开源生态评估体系与 SaaS 服务进行了全面的升级 !上周我们介绍了 贡献者画像模型与项目深度洞察,现在让我们一起来看看 三维评估体系图与 Compass 协作 吧~

开源世界每天都有数不尽的项目涌现,但如何准确衡量一个开源项目的健康度一直是个难题。幸运的是,现在我们有了开源项目的健康体检医生——OSS Compass,最近它的 开源生态评估体系与 SaaS 服务进行了全面的升级 !让我们一起来看看都有哪些精彩的更新吧~

12 月 13 日上午,OSS Compass(以下简称“Compass”)社区董事会 2023 第四季度会议在北京大学顺利召开。本次会议共有 10 位董事参会,其中北京大学周明辉、南京大学陶先平、南京大学汪亮、开源中国红薯、百度马红伟、华为高琨、华为王晔晖、星策社区谭中意、奇科厚德龙文选这 9 位董事冒雪现场参会,开源中国张盛翔线上参会。另有 3 位董事因故未能参会。

在之前的两篇文章《开源生态评估与度量的思考(一)——演进与趋势》和 《开源生态评估与度量的思考(二)——评估体系的多维空间》中, 我总结了开源社区评估与度量的三个主流方向:开源软件、开源项目和开源生态。以及评估体系的三维空间(图一),在“开源生态”与“协作”两个维度交织空间中,介绍了四个评估模型协作开发指数模型、社区服务与支撑模型、组织活跃度模型和社区活跃度模型(已在 OSS-Copass 部署), 并使用 Pytorch vs Tensorflow 实例来展示几个模型间的逻辑关系。

在这篇文章中,我们将主要介绍“开源生态”与“人”之间的交织产生了两个重要的评估模型:贡献者画像模型和贡献者旅程模型。这两个模型是与南京大学汪亮老师及其团队共同研究的成果,在此衷心感谢汪亮老师和他的团队为此付出的努力。

近年来,我一直从事与开源生态评估相关的工作。本系列文章旨在总结我的工作经验,并整理出接下来的工作思路,同时期待与大家的交流。

在我之前的文章《开源生态评估与度量的思考(一)——演进与趋势》中,我总结了开源社区评估与度量的三个主流方向:开源软件、开源项目和开源生态。然而,对于技术洞察工作而言,这只是迈出万里长征的第一步。

作为一名工程师,我更希望看到一个实际可行的评估体系的出现,它应具备以下几个特点:能够帮助开源社区发现具体问题,帮助人们发现有价值的开源社区,以及预测产业趋势等。

总之,这个评估体系应该是实践导向的,能够提供实际价值,而不仅仅是一种虚无缥缈的理念。

近年来,我一直从事与开源生态评估相关的工作。本系列文章旨在总结我的工作经验,并整理出接下来的工作思路,同时期待与大家的交流。

通过对过去三十多年学术界和开源产业的观察,我们可以发现开源社区评估与度量主要集中在三个主流方向:开源软件、开源项目和开源生态。这些方向的产生与时代背景密切相关,并且随着开源的发展,它们的边界逐渐模糊,相互之间也呈现出相互包含的趋势。同时由于不同市场和用户关注的重点不同,导致它们在某种程度上独立发展。

张洁芮,李颖,汪亮,陶先平,南京大学计算机科学与技术系,计算机软件新技术全国重点实验室 开源指南针(OSS Compass)

摘要:

本研究针对开源开发者社交网络中的演化行为认知这一主题,为克服传统社区演化行为分析技术偏重定性而非定量这一局限性,提出了一组基于信息熵的社区分裂、缩减、合并和扩大指数来度量开源开发者社交网络中的社区演化行为。实证研究表明,该组指数能够有效刻画开源社区的演化,通过简单的规则变化能够取得和现有定性工作相一致的结论,准确率达到 94.1%。同时,进一步的研究表明,所提出的社区演化指数与开源项目以 commit 数量为代表的生产力之间存在显著的关联关系。本研究所提出的基于信息熵的度量指数为我们定量认知和分析开源社区的演化行为提供了支持。

刘政,祖小岚,罗星宇,王子杭,张洁芮,王晔晖,汪亮, 陶先平 南京大学计算机科学与技术系,软件新技术全国重点实验室 华为技术有限公司 开源指南针(OSS Compass)

摘要

本方法基于 OSS Compass 指标预测开源项目的未来活跃状态。该方法采用了基于特征的时间序列分类预测方法,通过提取 OSS Compass 指标序列中的统计特征,训练并运用机器学习智能分类模型对项目未来的活跃/不活跃状态进行预测,同时给出近似概率估计。在近 600 个项目数据集上的交叉验证结果显示,该方法的准确率接近 90%。在泛化能力方面,本方法在超过一万个仓库的数据集上仍能够达到 80%的准确率,初步具备现实可用性。分析结果能够部分反映开源项目的未来健康状态,进而展示了 OSS Compass 指标体系在度量开源软件健康度上的有效性。该方法有望为开源软件的用户、开发者、投资者和管理者提供有价值的参考信息。

汪亮1,2^{1,2},郑智文1,2^{1,2},吴向臣1,2^{1,2},桑百惠1,2^{1,2},张洁芮1,2^{1,2},陶先平1,2^{1,2}

1^1南京大学计算机科学与技术系,计算机软件新技术全国重点实验室 2^2开源指南针(OSS Compass)

摘要

本研究聚焦于开源软件(OSS)平台上的项目副本,围绕衡量和理解开源软件项目中副本多样性展开。本文通过构造基于 Rao 二次熵的新型副本熵,并基于项目文件的修改来衡量这种多样性。实证研究表明,开源项目的副本熵与不同的主效应之间存在显著相关性,其中包括项目的外部生产力(由外部贡献者的提交数量度量)、外部贡献者 pull-request 的接受率以及已报告的 bug 数量。此外,我们还观察到副本熵与其他因素(如副本数量)之间存在显著的交互作用。这些结果表明,副本熵作为一个有效指标,不仅丰富了当前关于开源软件项目副本的可用度量,还进一步加深了基于副本仓库开源软件发展过程的认识,并且有望支持进一步的研究和应用。

Copyright © 2022 开源指南针。保留所有权利。