每周有超100万行代码在开源AI领域创建

2023-02-21 15:36

  LF AI & Data在2018年开始做AI开源生态系统时,只有大约70个项目被认为是关键项目,而现在已经增加到了350个。这些项目提供了超过6亿行代码,可供任何人选择、使用。

  比如某银行,全国有八大研发中心,每个中心有N个项目组,每个项目组还有M个外包团队,在做着N乘以M个并行的软件项目。一堆人在吭哧吭哧写代码,没有任何交流。

  “现在每周有超过100万行代码在开源AI领域中被创建,有无数优秀的社区成员做出贡献,我觉得开源的下一代ChatGPT指日可待。”5月27日,在上海举办的2023全球开源技术峰会期间,LF AI & Data基金会执行董事、PyTorch基金会执行董事易卜拉欣哈达德(Ibrahim Haddad)在接受澎湃科技()专访时,谈到了大语言模型的开源现状。

  开源(OpenSource)即开放源代码,用户可以利用源代码在其基础上修改和学习。峰会期间,开源中国董事长马越在接受澎湃科技采访时谈到,用户基于兴趣来到某个开源项目,在源代码的基础上不断改进,在此过程中,一部分优秀项目就会得到发展并商业化。

  马越回忆到,开源起源于欧美,中国曾经不是开源的强国,只是开源应用的大国。但如今随着技术与经济环境发展,开源不再单纯是“为爱发电”的模式,生态已经发生了翻天覆地的变化,如今国内已有多家覆盖全领域技术内容的综合社区,且拥有丰富的奖励机制来维护生态,这个过程中孕育出了许多优秀的开源项目,例如OpenHarmony(鸿蒙操作系统的开源版本)。

  谈到开发者与开源生态的关系时,马越指出,“没有开发者的生态,不能称其为开源生态,一个不能持续吸引更多开发者的生态,注定也会枯萎。”马越还表示,数字化转型的最大阻碍,是代码没有成为企业资产,“目前许多企业陷入了‘灯下黑’的状态,开发了无数代码,需要修改时,却找不到对应的内容,这些代码无法成为企业资产。软件本质上的核心价值是为了复用,而这正是开源要解决的问题。”

  自聊天机器人ChatGPT及其背后的GPT大模型爆火之后,一些开源大模型也在最近几个月引起了业界高度关注,包括Meta的LLaMa、复旦大学的MOSS和Databricks的“多莉(Dolly)”等。

  在采访中,哈达德十分肯定,AI相关的开源项目会在未来产生下一个ChatGPT,“开源能够加速大语言模型(LLM)的开发和创新。”他说,“事实上,许多行业内的组织都意识到,要想实际训练这些模型,需要太多的数据、太多的精力和太多的云服务。因此,开源方面的协作是必不可少的。在面对复杂问题时,需要许多组织携手合作,共同应对这些难题。”

  哈达德解释称,建立一个开源的大语言模型需要很多模块,“要实现真正的开源,至少需要七八个不同的模块都以开源形式提供。这需要多个组织共同努力。”

  哈达德认为,最重要的模块是用来训练的数据集,必须在Linux基金会的开源许可下使用。“我们和成员公司定义这个特定的AI数据开源许可证为CDLA(community data license agreement),公司们可以使用这个许可证来开源数据。”其次是模型架构本身,以及公司用于构建模型的支持工具和库,还有模型的权重和参数、文档等。这些都是大模型生态需要以开源形式提供的模块,它们可以帮助其他人获取这些信息并运行模型,使用相同的方式和基准进行训练。通过提供所有这些信息,其他人可以在此基础上做出贡献,这也是一种建立信任的方式。

  事实上,LF AI & Data正在着手做这件事,该基金会是Linux基金会旗下专注于人工智能、机器学习、深度学习和数据的子基金会。哈达德表示,自2018年成立以来,LF AI & Data一直专注于建立社区和生态。而下一阶段,“我们将专注于AI,特别是生成式人工智能。”“人工智能技术的应用潜力巨大,现在很多人对这项全新技术仍然知之甚少,甚至不知道他们正在与人工智能系统或人工智能生成的语音或文本交互。”

  哈达德认为开源极大地推进了人工智能的发展,他用几个关键数据举例称,LF AI & Data在2018年开始做AI开源生态系统时,只有大约70个项目被认为是关键项目,而现在已经增加到了350个。这些项目提供了超过6亿行代码,可供任何人选择、使用。“现在,每周有超过100万行代码在开源AI领域中被创建,可以看到如今AI开发和创新的速度都非常快。”

  “市场上有很多公司,他们每天都在竞争。但在开源中,我们一般不会互相竞争。所有公司都走到一起,一起协作,为解决行业挑战做出贡献。这是一个非常与众不同的环境。”哈达德称,在这个环境中,人人彼此信任,构成了强大的道德基础,在此基础上可以构建一种透明的技术发展。

  马越认为,这些凭借兴趣聚集的开发者,往往是在“为爱发电”中创造出了优秀的项目和开源生态,而这样的项目和生态恰恰是数字化转型的重要基座。“要利用专业平台把软件工程数字化这件事做好。开源中国能够帮助企业把软件工程的数据资产化沉淀下来,成为公司可审计、可复用的资产。”他说。

  马越指出,现在市场上出现了“灯下黑”的现象,许多企业尝试数字化转型,却没有注意到本身的软件工程没有数字化。“比如某银行,全国有八大研发中心,每个中心有N个项目组,每个项目组还有M个外包团队,在做着N乘以M个并行的软件项目。信息化、数字化转型最大的投入点就在这里,阻碍也在这里。一堆人在吭哧吭哧写代码,没有任何交流。比如某银行的一个菜单选项栏,可能重复做过上千遍。”马越解释道,软件本质上的核心价值是为了复用。“数字化底座缺失就造成了复用缺失,不仅银行菜单使用复杂,审计代码不能运行,甚至一旦员工离职了,连之前的代码也追查不到。”

  目前,中国开源社区如雨后春笋一般接连冒出。马越表示,除了开源中国,还有CSDN和51CTO等,而其他较小的垂直社区总计达300个左右。

  GitHub 2022年的报告显示,全球已有超过9400万开发者用户,其中70%来自北美之外的地区,而中国开发者占10.3%,有975万,位居全球第三,GitHub预测2030年中国开发者将成为全球最大的开源群体。

  针对国内外开源生态的差距,马越强调,尽管Gitee(开源中国2013年推出的基于Git的代码托管和协作开发平台)目前是世界第二大开源社区,但与国外的开源社区仍然有差距。“目前,我们只能服务1000万开发者,只拥有2500万代码仓,而GitHub可以达到我们力量的八九倍。”但他对未来持乐观态度,“中国开源迎来了历史上最好的时机。”他认为,中国目前的力量已经可以为开发者提供一个“起飞的基座”。

  “开发者是开源生态的根基,一个不能持续吸引更多开发者的生态,注定也会枯萎。”马越指出,“在开源社区,存在着反哺循环,你帮助别人,别人就会回过头来帮助你,所以在通常情况下,最吸引开发者的点就是‘你可以帮助他’,你可以为他提供最优秀的项目、最好的质量、最广的场景。”

  与过去相比,如今的开源生态已经发生了翻天覆地的变化。哈达德说,“1992年我在大学的时候,甚至很难找到开源网站。”如今,在线上,有开源网站提供各种丰富的知识,有许多社区论坛可以提问;在线下,开源项目举行很多线下交流活动,把成员们聚在一起讨论各种问题。

  对于新进入项目社区的开发人员,哈达德表示,与多年前相比,今天的新开发人员更容易获得知识。Linux基金会提供了很多免费培训,帮助开发人员学习知识和技能并获得认证。“从雇主的角度来看,获得认证非常有价值。当两个人有相同的技能,其中一个是认证的,认证的人比没有认证的人有更大机会得到工作。”哈达德说。

  另一方面,如何让开发者愿意参与开源?马越称,“解放天下开发者,最重要的是让他们先获得财富自由。比如让他们通过技能赢得物质奖励,比如帮助他们发展开源项目并实现商业化。”马越举例,目前有很多大厂开展黑客松大赛,给优胜者提供真金白银的奖励,通过物质利益来吸引更多开发者。

  “我们在做一个长尾工程,对我们服务的超过1000万开发者提供基座服务。”马越举例,“在OpenHarmony项目的开发初期,开发者需要将代码托管在一个中立的第三方平台,才能获得大量的开发者流量,并且保证工程基座技术服务质量。而一般平台很难拥有我们这种积淀10年的巨大的开发者流量与技术服务。虽然OpenHarmony是我们这里最有名的项目,但我们还有其它大量优秀的项目。”

  (原标题:《LF AI&Data执行董事:每周有超100万行代码在开源AI领域创建》)

下一篇:大模型行业根本没有什么“真”开源?
上一篇:合肥启迪科技城招商中心开放
相关文章
返回顶部小火箭