热潮下的思考，开源会给AI行业带来哪些挑战和限制？ | 原创 - 学院活动_CIO时代网

热潮下的思考，开源会给AI行业带来哪些挑战和限制？ | 原创

2024-01-14 19:40:18 来源：抢沙发

2024-01-14 19:40:18 来源：

摘要：在以ChatGPT为代表的生成式AI崛起热潮下，大家都知道AI正在改变世界。那么，AI遇上开源，又将会发生什么呢？
关键词： AI 开源开源生成式AI 原创专栏

在以ChatGPT为代表的生成式AI崛起热潮下，大家都知道AI正在改变世界。那么，AI遇上开源，又将会发生什么呢？

开源AI项目迎来大爆发

已经过去的2023年里，不论你认不认可，AI技术都已经以一种“新生”形式走进了我们的日常工作及生活。

据《2023年人工智能现状报告》（State of AI Report 2023）数据显示，OpenAI的GPT-4作为目前业界最强大型语言模型，正加速生成式AI技术的发展步伐。

一直以来，人们都有梦想着能够借助AI技术来拓展现有人类智慧、知识及创造力的边界。如今，GPT-4等生成式AI产品几乎快要将“梦想”实现。特别是在开源技术蓬勃发展的当下，不同行业领域中开源的渗透率不断加深，因而将开源与AI相结合，必然会进一步加快人类探索的步伐。

开源（Open Source），即开放源代码，最早要追溯到20世纪50、60年代的美国。早期开发互联网技术和电信网络协议时，研究人员需要进行开放式的协作环境。1968年，Internet的先驱阿帕网（ARPANET）的建立，成为了对开放源代码可行性展示的标志。直到1985年，自由软件运动领袖理查德·斯托曼（Richard Stallman）发表了著名的GNU宣言，开源运动才正式开启，免费的Linux操作系统也由此诞生。

作为信息技术领域中的一种大规模协作开发的创新方式，开源改变了信息技术产业格局及商业模式。基于开源模式，越来越多的行业领域纷纷从其资源汇集和协同创新的优势中获益，AI技术也基于开源模式而快速迭代，从而迎来了新一代技术变革。

在我国，权威机构给开源的标准定义是“一种在软硬件开发、数据与信息共享中广泛采用的开放式协作模式，协作的产出物应该符合开源许可证条款的要求。”因此，作为一种开放式协作模式，开源正在被越来越多的行业领域所采用。

在当前的生成式AI热潮下，作为开发高效、定制大模型主要途径的开源AI，已经成为备受全球科技界“追捧”的新趋势。

开源AI是指使用开放源代码的方式，可以帮助人们自由地使用、修改和共享AI算法和工具。开源AI的优势在于可以促进技术创新，提高算法的质量和性能，降低开发成本，以及促进技术的普及和应用。开源AI的应用领域非常广泛，包括自然语言处理、图像识别、机器学习、深度学习等。

2023年以来，全球知名开源项目平台GitHub上开源生成式AI的项目激增。据Github官方统计，截至2023年11月份，开源生成式AI相关项目高达8000 多个。这些项目包括商业支持的大型语言模型（LLM），如 Meta 的 LLaMA，以及实验性的开源应用程序。

如“雨后春笋”般涌现出来的开源生成式AI项目，不仅为开源开发人员以及机器学习社区提供了许多好处，也为数字时代新技术变革下的全球经济增长带来了新引擎。

开源给AI行业带来的挑战和限制

生成式AI的崛起，引发开源AI热潮。目前，开源AI已经迎来了以数据驱动编程为特点的“软件2.0”时代。

由于开源AI的发展涉及数学、统计学、计算学等多个学科，因此为AI技术的革新提供了更广阔的空间和可能性。与此同时，AI的快速迭代也在推动着开源技术的进步。比如时下大热的生成式AI大模型的训练，需要大量的数据和计算能力，而开源技术则可以为AI提供这些资源，包括开源社区也可以提供大量的共享数据集和计算资源，以帮助AI模型的训练和改进。

开源技术的发展为AI的研究和应用提供了强大的工具和丰富资源。从框架开源到算法开源，再到模型开源，基于开源社区的孵化之后，开源模式可以快速帮助AI在技术、应用等方面得以全面发展。

在开源模式的推进下，AI标准化和规模化趋势已初现，比如算法的标准化带来了软件标准化的机会，而硬件、技术平台、最佳实践也已在标准化的“路上”了。

当然，尽管开源和AI之间存在着相互促进的关系，开源社区的开放和协作精神也给AI的发展提供了重要的支持，同样生成式AI的进步也在推动开源社区的创新和发展。但尽管如此，开源技术也会对AI行业的发展带来一些挑战和限制。

首先值得我们关注的一大挑战，就是法律法规问题。

在开源AI的背景下，软件许可的法律模式是至关重要的——选择得当，就有可能在鼓励创新的同时保护了知识产权。

一般而言，作为软件版权所有者可以自由选择如何授权该软件，比如双重许可——同时发布两个许可证：专有许可证和开源许可证，即通常通用公共许可证（GPL）。目前，这种许可方式已成为业界主流授权方式。

以上方式对于许可方而言是有利的，他们可以在利用技术许可的同时也能获得与商业许可相关的经济利益。然而对于开源社区而言，双重许可或不利于社区，且有可能导致对开源项目的贡献减少，因为贡献者不愿意为具有严重许可限制的项目做出贡献。

因此，开源AI在以上方面应该采取其他措施，并设法防止这些风险的发生。

（来源：gptainews）

另一个更紧迫的问题，则是围绕开源AI出现的版权争论。据悉，目前“对于受版权保护的素材训练而成的AI大模型，模型自身的版权应如何对待仍悬而未决。”也就是说，开源AI产品的版权可能暂时无法界定。所以，开源AI相关研究人员和从业者要关注该挑战并及时作出相应的调整和行动。

此外，开源AI还面临着技术挑战、数据挑战等限制。对于后者而言，开源在数据质量和数量方面都面临着特殊的挑战，数据透明度是整个开源系统必须考虑的问题，对于其“封闭数据”，AI在调用时或许无法做到完全透明。

反之，如果做到了数据透明，这又会阻碍开源的潜在优势，因为并非所有与AI相关的元素都是开源的。因此，在以上情况下，制定开放标准至关重要。

编辑 | MissD

关于以上话题，如果您也想参与讨论，不妨在评论区和我们一起交流互动~

欢迎联系转载原创内容！
转载请联系：

张老师：18046567595

·END·

第四十届CIO班招生
国际CIO认证培训
首席数据官（CDO）认证培训

责编：zhanghy

免责声明：本网站（http://www.ciotimes.com/）内容主要来自原创、合作媒体供稿和第三方投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。
本网站刊载的所有内容（包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等）版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时，请及时通知本站，予以删除。