OpenAI 和谷歌最怕的,是一张「开源笑脸」
「我们没有护城河,OpenAI 也没有。」
在最近泄露的一份文件中,一位谷歌内部的研究人员表达了这样的观点。这位研究人员认为,在这场激烈的 AI 竞赛中,虽然谷歌与 OpenAI 在你追我赶,但真正的赢家未必会在这两家中产生,因为有股第三方力量正在崛起。
(资料图片仅供参考)
这个力量就是「开源社区」,它才是谷歌和 OpenAI *的敌人。
而开源社区的顶流,当属 Hugging Face 了。作为一个 AI 领域的 Github,它提供了大量高质量的开源模型与工具,将研发成果*程度地惠及社区,极大地降低了 AI 的技术门槛,推进了 AI 的「民主化」进程。
它的创始人之一,Clément 还曾公开表示:「在 NLP 或者机器学习领域,最坏的情况,就是要与整个科学界和开源界竞争。因此,我们不再试图竞争,转而选择为开源界和科学界赋能。」
Hugging Face 创立于 2016 年,几年间连获 5 轮融资,目前估值已经飙到 20 亿美元,Github 上的星标数量已经超过了 9.8w,稳居热门资源库之列。
那么这家公司是做什么的?是如何逆袭成为开源界的「顶流」的? 它的发展模式又是怎样的呢?
1、NLP 开启逆袭之路
Hugging Face 是一家以自然语言处理 (NLP) 技术为核心的 AI 初创公司。
它是由法国连续创业者 Clément Delangue(曾创办笔记平台 VideoNot.es,媒体监测平台 mention 以及被 Google 收购的移动开发平台 Moodstocks 等项目)和 Thomas Wolf、Julien Chaumond 一起创办的,于 2016 年成立,总部设在美国纽约。
其中的两位创始人 Clément Delangue 和 Thomas Wolf 都是自然语言处理领域的专家。在不断推进 Hugging Face 的发展的过程中,他们被视为当代 NLP 领域的先锋。
他们创办 Hugging Face 的初衷,是为年轻人带来一个「娱乐型」的「开放领域聊天机器人」,就像科幻电影《Her》里面的 AI 那样,可以跟人聊天气、朋友、爱情和体育比赛等各种话题。大家可以在无聊的时候跟它聊八卦、问它问题、让它生成一些有趣的图片之类的事情。
也正因如此,Hugging Face 的名字来源于一个张开双手的可爱笑脸 emoji。
2017 年 3 月 9 号,Hugging Face App 在 iOS App Store 正式推出,就得到了不少关注,还拿到了包括 SV Angel、NBA 球星杜兰特等投资人在内的 120 万美元的天使投资。
为了训练这个聊天机器人的自然语言处理(NLP)能力,Hugging Face 构建了一个资源库来容纳各种机器学习模型和各种类型的数据库,包括帮助训练聊天机器人检测文本消息情绪、生成连贯的响应、理解不同对话主题等。
同时,Hugging Face 团队在 GitHub 上将此库的免费部分开源,目的是从用户共创中获得开发灵感。
到了 2018 年,Hugging Face 仍然不温不火,便开始免费在线分享应用程序的底层代码。这一举动立即收到了谷歌、微软等业内知名科技公司的研究人员的积极响应,他们开始将这些代码用于 AI 应用程序,这个笑脸 emoji 也开始被广大 AI 开发者们所熟知。
恰巧同年,谷歌推出基于双向 Transformer 的大规模预训练语言模型 BERT,开启了 AI 模型的「内卷时代」。
在这样的大环境下,Hugging Face 做起了提供 AI 模型的服务,随之迎来了自己的「黄金时代」。
它先是开源了 PyTorch-BERT;随即,又整合了它先前贡献的 NLP 领域的预训练模型,发布了 Transformers 库。
Transformers 库提供了数以千计的预训练模型,支持 100 多种语言的文本分类、信息抽取、问答、摘要、翻译、文本生成。借助 Transformers 库,开发者可以便捷地使用 BERT、GPT、XLNet、T5 、DistilBERT 等 NLP 大模型,来完成文本分类、文本总结、文本生成、信息抽取、自动 QA 等 AI 任务,节省大量的时间和计算资源。
简而言之,Transformers 库提供直接可用的模型,无需企业再度开发;因此,众多企业开始借助 Transformers 库,将模型应用到产品开发和工作流程中。
Transformers 库也因此迅速地流行起来,成为了 GitHub 史上增长最快的 AI 项目。
图片来自于 Lux Capital
Hugging Face 的创始人之一 Clément Delangue 也不禁感慨,「我们发布东西时没有考虑太多,而社区的爆炸式增长甚至让我们感到惊讶。」
面对如此多的开发者,Hugging Face 顺理成章地建立了自己的社区,Hugging Face Hub;同时,调整产品战略,不再局限于自然语言处理,而是将机器学习的不同领域进行融合,探索创建新的用例,着手构建一套完整的开源产品矩阵。
截至 2023 年 4 月,Hugging Face 共享了 16,6894 个训练模型,2,6900 个数据集,涵盖 NLP、语音、生物学、时间序列、计算机视觉、强化学习等领域,搭建了完整的 AI 开发生态。
这大大降低了相关研究与应用的门槛,让 Hugging Face 成为 AI 社区*影响力的技术供应商。
目前,这些模型已经服务了数万家企业进行资源开发,帮助科研人员和相关从业人员更好地构建模型、更好地参与到产品和工作流程中,其中不乏 Meta、亚马逊、微软、谷歌等知名 AI 团队。
在资本市场,Hugging Face 也同样备受青睐。
在 2022 年 5 月,团队完成了由 Lux Capital 领投、红杉资本参投的 1 亿美元 C 轮融资,估值狂飙到 20 亿美元。
面对资本的追捧,Hugging Face 的创始人表现的极其冷静,表示拒绝了多个「有意义的收购邀约」,并且不会像 GitHub 那样出售自己的业务。关于 Hugging Face 的未来,它的创始人还有一些有趣的想法:「我们希望成为*家以表情符号上市的公司,而不是三个字母的股票代码。」
2、AI 大模型的 Github
凭借开源获得了万众瞩目的 Hugging Face,也格外注重社区的建设,而刚刚诞生不久的 Hugging Face Hub,现在俨然已经成为 AI 开发者的大本营。
Hugging Face Hub 是一个探索、实验、合作,并建立机器学习技术的中心场所。在这里任何人都可以分享和探索模型、数据集等,大家轻松合作,共同构建机器学习模型,Hugging Face Hub 也因此被称做「机器学习之家」。
它是 Hugging Face 坚持「开源」的产物,也是它的核心。正如官网的宣传语所述:AI 社区,建设未来。
Hugging Face 的创始人曾公开表示「Hugging Face 的目标是通过工具和开发者社区,让更多的人使用自然语言处理工具,达成他们的创新目标,让自然语言处理技术更容易使用和访问。」
他还补充说,「没有任何一家公司,包括科技巨头,能够独自『解决 AI 问题』,而我们实现这一目标的*途径,是通过以社区为中心的方式,分享知识和资源。」
因此,公司致力于在 Hugging Face Hub 上建立*的模型、数据集、演示和指标的开源集合,以使每个人都能利用机器学习进行探索、实验、合作和构建技术,从而实现 AI「民主化」的目标。
目前,Hugging Face Hub 提供超过 12 万个模型(Models)、2 万个数据集(Datasets) 和 5 万个演示应用程序(Spaces),而且所有这些都是开源、公开、免费的。
Hugging Face Hub 对所有机器学习模型开放,并得到 Transformers 、 Flair、Asteroid、ESPnet、Pyannote 等自然语言处理库的支持,其中,最核心的自然语言处理库是 Transformers 库。
Transformers 库支持 PyTorch、TensorFlow 和 JAX 之间的框架互操作性,这确保了在模型生命周期的每个阶段使用不同框架的灵活性。而且,通过 Inference API(推理 API),用户可以直接使用 Hugging Face 开发的模型与数据集,进行推理、迁移学习,这让Transformers 框架在性能与易用性上达到业界*水平,彻底改变了深度学习在 NLP 领域的发展模式。
此外,该平台还提供了一些实用工具,如模型版本控制、测试集成、共享和协作等,可以帮助开发人员更好地管理和共享模型和数据集。
因此,在 Hugging Face Hub,任何开发者或者工程团队都可以通过接口,使用数千个模型的推理 API,轻松下载和训练*进的预训练模型,完成不同模式的常见任务,例如自然语言处理、计算机视觉、音频、多模态等,在几分钟内构建自己的机器学习驱动的应用程序,省去了从头开始训练模型,所需的大量时间和资源。
在此基础上,他们还可以在自己的账号下创建自己的仓库,用于存储和分享已经训练好的模型、数据集和脚本,同时与强大的社区分享交流,轻松协作完成 ML 工作流程。
简而言之,Hugging Face Hub 为研究者提供了一个平台,去展示那些他们想要分享的模型,测试他人的模型,以此来深入研究这些模型的内部架构,共同促进 ML 的发展。而此前,AI 对前端开发者来说似乎遥不可及,毕竟到目前为止,只有少数代码生成的 AI 系统向公众免费开放。
也正因如此,Hugging Face 决定在社区提供开源模型和 API 来改变这种状况,主动承担起 AI 科研走向应用的这个过程中复杂、细碎的工作,使得任何 AI 从业者都可以便捷地使用这些研究模型和资源。用 Hugging Face 自己的话来讲,他们所做的事情,就是要架起 AI 科研和应用之间的桥梁。
除了提供便利,Hugging Face 还积极采取措施强化 Hub 的安全性,确保用户的代码、模型和数据是安全的,让用户放心使用。
例如,在模型库配备模型卡,以告知用户每个模型的限制和偏见,从而促进这些模型被负责任地使用和开发;在数据集设置访问控制功能,允许组织和个人可以出于许可和隐私考虑,创建私人数据集,并且可以自行处理其他用户的访问请求。
还值得一提的是,为了进一步使自然语言处理技术「民主化」,Hugging face Hub 上还开设了 NLP 课程——Hugging Face course。
该课程将使用 Hugging Face 生态系统中的数据库(Hugging Face Transformers、Hugging Face Datasets、Hugging Face Tokenizers 和 Hugging Face Accelerate),讲解自然语言处理 (NLP) 的有关知识。它是完全免费的,甚至没有广告。
简而言之,Hugging Face Hub 就像是机器学习领域的 GitHub。一个由社区开发者驱动的平台,提供大量资源,让开发人员可以在机器学习(ML)模型、数据集和 ML 应用程序上,不断探索、创新和互相协作,通过分享知识和资源以加速和推进 AI 发展。
3、「开源」带动「商业」
那么问题来了,一家提供「平台社区」的「开源」公司,又是如何盈利的呢?
首先,「开源」就是一个正确的决定。
Hugging Face 凭借开源项目 Transformers,积累了巨大的影响力,聚集了广大开发者构建了庞大的社区 Hugging Face Hub,也赢得了客户与投资者的信任,这使得它的商业化转型水到渠成。
对此,红杉资本合伙人 Pat Grady 也表示,「他们优先考虑的是应用,而不是变现,我认为这是正确的做法。他们看到了 Transformer 模型在 NLP 之外的应用方式,看到了成为 GitHub 的机会,这不仅是面向 NLP,而且会延伸到机器学习的每个领域。」
而且,纵观过去十年,市场上初创公司的创业历程,会发现开源模式的商业可行性得到过有力的印证。像 MongoDB、Elastic、Confluent 等,都是收入增长最快的开源公司,它们都实现了盈收,并且还在市场中存活了下来。
Hugging Face 的创始人之一,Clément 也因此坚信,「初创公司可以通过某种方式为开放的社区赋能,此种方法产生的价值,比通过搭建一个专有工具,产生的价值高出上千倍。」
甚至公开表示,「考虑到开源机器学习的价值和它的主流地位,其使用量就是递延收入。机器学习会成为技术开发的默认方式,而且 Hugging Face 会成为这方面的头号平台,并创造出数十亿美元的收入。」
因此,Hugging Face 选择了「开源带动商业」,这一商业化发展路径,并在 2021 年开始提供付费功能。
目前,Hugging Face 的盈利业务主要有三类:
付费制会员:提供更加优质的服务和社区体验,来获得收益;
数据托管:根据不同参数需求,提供不同的按小时收费托管服务;
AI 解决方案服务:目前的主打产品,围绕 NLP、Vision 等方向为客户提供定制化解决方案,以获得技术服务费用。
值得一提的是,从 2020 年开始,Hugging Face 就开始做面向企业的定制自然语言模型,并推出了包括 AutoTrain、Inference API & Infinity、Private Hub、Expert Support 等,针对不同开发者类型的个性化产品。
目前,1000 多家公司已经成为了 Hugging Face 的付费客户,主要是大型企业,包括英特尔、高通、辉瑞、彭博社和 eBay。
2021 年,Hugging Face 已经实现收入 1 千万美元,从数据上来看,Hugging Face 这套的「开源带动商业」的策略是成功的。
这也印证了 Hugging Face 的 CEO,Clément 所说的,「公司不需要从创造的价值中获取 100% 的红利,只需将其中 1% 的价值变现,但即便只是 1%,也足够让你成为一家高市值的公司。」
简而言之,Hugging Face 凭借开源社区积累影响力,而后逐步向 SaaS 产品和企业服务拓展。这种渐进式的转型,让 Hugging Face 在开源和商业化之间,取得了良好的平衡,也是其能取得成功的重要原因。这种发展策略也让 Hugging Face 成为了 AI 界独树一帜的存在,并为其他 AI 初创公司树立榜样。
但是,开源生态也有它自己的软肋,因为商业化的发展很可能会伤害到自然生长的社区环境。对此,Hugging Face 的做法是加强对技术的管控,维护自己的开源生态;同时,向科研领域深挖。
「机器学习技术仍然还处于早期发展阶段,开源社区的潜力是巨大的。在未来 5 到 10 年,我们一定还会看到更多开源机器学习公司的崛起。」
Hugging Face 的 CEO Clément 说道。
标签:
您可能也感兴趣:
今日热点
为您推荐
军队抽组医疗力量承担 武汉火神山医院医疗救治任务
同马来西亚总理马哈蒂尔通电话 创造更多合作成果,造福两国和两国人民。
构筑起疫情防控的严密防线
排行
- 腾龙股份股东王柳芳减持302.01万股 价格区间为14.81-15.90元/股
- 因个人资金需要 新泉股份实际控制人唐志华拟减持不超1124.54万股
- 信捷电气股东邹骏宇减持50万股 价格区间为60.41-67.50元/股
- 国家卫健委:湖北以30个省外新增病例17例
- 因自身资金需求 科森科技股东徐宁拟减持不超3.71万股公司股份
- 中公高科股东潘玉利减持50万股 价格区间为20-20.60元/股
- 多地患者治愈后“复阳” 对疫情防控提出新挑战 五大焦点权威解析
- “精诚合作,打赢这一仗!”
- 生态环境部:自1月20日以来全国已累计处置医疗废物12.3万吨 ...
- 承诺两年扭转乱象 银保监会加快推进意外险费率市场化改革 ...
精彩推送
- BEYOND Awards揭晓!建筑央企荣获两项大奖-世界关注
- OpenAI 和谷歌最怕的,是一张「开源笑脸」
- 今日报丨华南理工大学孙大文院士获评“广东十佳农科专家”
- 无人配送独角兽裁员、重组、叫停落地,阿里达摩院同期洗牌彻...
- 内蒙古鄂尔多斯伊金霍洛旗_内蒙古鄂尔多斯_天天滚动
- 深化数实融合 四川德阳发布448.24亿元数字经济机会清单 天天亮点
- 天天热议:制造业PMI连续3个月扩张后再现回落,国家统计局给出...
- 快看点丨分析|4月消费、基建投资同比高增,促消费空间较大、...
- 央行报告谈硅谷银行启示 强调货币政策应避免大放大收
- oppo账号登录会不会同步相册_oppo账号登录
- 数观区势丨东北:振兴曙光初现
- 感动-天天视点
- 每日快报!同桌脚臭该怎么对他讲_同桌的脚足控小说
- 天天滚动:国家统计局:4月份国民经济运行延续恢复向好态势
- 每日热闻!政策发力推动各行业稳中求进 新能源相关产业利好外...
- 倍谙基宣布完成逾3亿元C轮融资,纽尔利资本领投 今日快看
- 全球信息:让体育运动更加“适幼化”!南山区幼儿园体教融合走...
- 焦点消息!惠济区一季度签约“专精特新”项目21个
- 为何青年失业率逆势上升?首破20%创新高,或低估了庞大低学...
- 环球简讯:央行:今年5-7月CPI还将阶段性保持低位
- 世界要闻:去年,31家游戏公司减员掉7900名研发
- 【世界聚看点】《儿童性格涵养教学法简明教程》成为“十四五...
- AI生产力工具平台AI100.ai今日正式上线,ChatGPT API和Promp...
- 年均数十亿市场规模,认知障碍筛查或将迎来爆发增长 全球速递
- 苹果的AI致命伤:生态封闭、保密文化注定难有作为?
- 海棠树灰霉病症状有哪些(海棠灰霉病图片)
- 全球快资讯丨青年失业率首破20%,国家统计局:将有针对性帮扶
- 焦点报道:权威部门隔夜两度发声:中国当前没有通缩,下阶段也...
- 权威部门隔夜两度发声:中国当前没有通缩,下阶段也不会通缩...
- 最新:4月经济恢复不及预期:投资增速回落,但消费继续反弹
- 如何看待M2和存款增长,央行发声 全球速看料
- 如果格林选择在今夏跳出合同,勇士会与他进行高薪续约吗?
- 跨国公司地区总部、外资研发中心的这项申报来了!-热门看点
- 4月规上工业增加值同比增长5.6% 需求偏弱加快企业去库存步伐
- 4月经济延续恢复态势,统计局发言人回应21记者为何工业阶段性...
- 统计局发言人回应21记者:4月经济延续恢复态势,为何工业阶段...
- 跨国公司地区总部、外资研发中心的这项申报来了!
- 每日速讯:最新《窗边的小豆豆》读书笔记200字 《窗边的小豆...
- 焦点热门:再见吧,特斯拉强制单踏板模式
- 往期回顾:2023油价会降下来吗 油价或创今年内最大跌幅
- 史无前例!失业率破20%!年轻人太难了
- 4月全社会用电量6901亿千瓦时 第三产业用电量同比增长17.9%
- 当前热讯:国家统计局:当前中国经济不存在通缩,下阶段也不...
- 国家统计局:核心CPI保持稳定
- 中国插座:公牛与其他
- 当前快讯:民航局:4月国内航线旅客运输规模超疫情前水平,较2...
- 国家统计局:2023年4月份规模以上工业增加值增长5.6%|全球消息
- 丰网:100%退还加盟费和押金,另加“情谊金”
- 五个女博士被立案,那背后的红制作呢?
- 缅甸足协官方:应中国足协邀请,6月16日对阵中国国家队
- 天天热点评!风电,加速向深远海进发
- 每日资讯:元宇宙亏损39亿美元,AI会是Meta的重要转机吗?
- 世界速读:写文、画图、替人直播,小巨头混战AIGC
- 世界视讯!5G+物联网:吃肉的 喝汤的 讨饭碗的
- 民营经济特稿:老乡传①|雷立猛(下)
- 儿子母亲节送花被妈妈骂不实用,当事妈妈:让他受伤了,已经...
- 央行报告:稳健货币政策精准有力
- 国家统计局:当前中国经济不存在通缩,下阶段也不会通缩
- 南科大生命科学学院院长张明杰:了解知识的来源远比学知识更重要
- 短讯!国家统计局:4月份国民经济运行延续恢复向好态势
- 每日速递:4月社会消费品零售总额同比增长18.4%,餐饮收入增...
- 国家统计局:4月份货物进出口总额同比增长8.9%-天天速看
- 世界速递!投资界24h | 老虎环球基金拟大举退出,给LP返现...
- 个人网络消费信贷贷后催收风控指引征求行业意见 拟对第三方...
- 造车资质收紧,新能源车厂各显神通|全球最新
- 环球微资讯!塞尔达传说王国之泪射箭射不准怎么办
- 全球快报:岳飞几个儿子_南宋民族英雄岳飞有几个儿子
- 统计局:1—4月份全国房地产开发投资同比下降6.2%-环球快资讯
- 福建:逐浪数字经济 助推高质量发展
- 世界简讯:券商晨会精华:央行一季度货币政策报告有7大信号
- 环球资讯:全国百强!合肥这三个区上榜!
- 天天时讯:全国最弱的省会,被其他城市抢尽风头,济南为何会...
- 【世界报资讯】思与辨 | 规范整顿房地产经纪服务 加强房地...
- 优化营商“软环境” 拼出发展“硬实力”|新消息
- 央行:保持货币信贷总量适度节奏平稳
- 不宜夸大CPI阶段性回落影响|每日快报
- 全球观天下!信达固收:从“缩减原则”和“稳健的直觉”看降...
- 梁建章:四大一线城市常住人口同时下降,大城市年轻人困局何...
- 极兔给中国快递又上了一课-世界热点
- 今日调油价!或迎年内“最大跌幅” 环球今日报
- 开票即售罄频频上演!演出经济快速回暖_动态
- 天天速读:长江宏观:货币适度平稳,经济乘势而上
- 快报:93门共享课程!西丽湖国际科教城X9高校院所联盟课程互...
- 腾讯马晓轶:游戏有望突破既有产业范畴,迎来“第三次扩容”...
- 唐岩回归200天,陌陌再难躺平|天天热消息
- 首发 | 橙科微电子完成数亿元C轮融资,新潮创投领投-全球热议
- 茉莉智慧联合福布斯中国成功举办《中国月子3.0时代白皮书》发布会
- 一图读懂如何健全党组织领导的乡村治理体系_每日聚焦
- 海南省治水办推送一批合同节水管理典型案例-世界报资讯
- 【全球聚看点】增速快于全国全省!廊坊一季度生产总值达733.6亿元
- 世界今日讯!太极集团:5月15日融券卖出9.79万股,融资融券余...
- 世界今头条!深圳南山区高校开启“绿色毕业季”,00后学子引...
- 央行:保持货币信贷总量适度节奏平稳
- 全球最新:A股头条:央行发声!我国经济没有出现通缩;阿里达...
- 领到数字人民币工资 天天新动态
- 领到数字人民币工资_世界播资讯
- 新股提示:星昊医药今日申购
- 聚焦:高新区拼出首季“开门红”
- 粤东西北GDP第一县,在茂名-环球速讯
- 全国百强!启东排名……-焦点简讯
今日要闻
- 深化数实融合 四川德阳发布448.24亿元数字经济机会清单 天天亮点
- 天天热议:制造业PMI连续3个月扩张后再现回落,国家统计局给出三点原因
- 快看点丨分析|4月消费、基建投资同比高增,促消费空间较大、迫切性较强
- 央行报告谈硅谷银行启示 强调货币政策应避免大放大收
- 数观区势丨东北:振兴曙光初现
- 天天滚动:国家统计局:4月份国民经济运行延续恢复向好态势
- 每日热闻!政策发力推动各行业稳中求进 新能源相关产业利好外贸丨市场纵贯线
- 焦点消息!惠济区一季度签约“专精特新”项目21个
- 为何青年失业率逆势上升?首破20%创新高,或低估了庞大低学历就业群体压力
- 环球简讯:央行:今年5-7月CPI还将阶段性保持低位