AIGC行业公开的秘密：都在抄作业，初创公司用GPT-4训练自家大模型

原标题：AIGC行业公开的秘密：都在抄作业，初创公司用GPT-4训练自家大模型

导读：

直播吧月日讯中国篮协副主席徐济成近日在一档名为传奇面对面的节目中表示外援是药不是饭过度依赖外援会造成国内球员参与感低无法取得自身提高对此媒体人周赫持不同意见我觉得是这样外援的确...

直播吧3月7日讯中国篮协副主席徐济成近日在一档名为《传奇面对面》的节目中表示：“外援是药不是饭。过度依赖外援会造成国内球员参与感低，无法取得自身提高。”对此，媒体人周赫持不同意见：“我觉得是这样，外援的确是药，这个药管不管用，你还没怎么试就放弃了，你怎么知道有用没用？

划重点

1 许多初创公司都在使用OpenAI等公司的相似数据和技术来开发自家大模型。
2 使用相同或类似数据训练大模型，导致这些模型无法在竞争中脱颖而出。
3 投资者不愿支持那些试图走捷径或开发与竞争对手毫无差别模型的公司。

腾讯科技讯 据国外媒体报道，据多位开发者和创始人透露，许多初创公司所开发的人工智能聊天机器人极可能依赖OpenAI及其他公司的数据资源，尽管这些初创企业正努力削弱OpenAI的市场地位。这一现象催生了一种新的竞争态势：这些初创公司向客户收取的费用仅为GPT-4成本的极小部分，但它们的低成本服务却能在特定任务上模仿GPT-4的表现。

然而，值得注意的是，这些初创公司在开发过程中并未公开披露它们使用了OpenAI的技术。这种做法使得这些初创公司面临一定的风险，因为如同Anthropic和谷歌等领先的人工智能公司一样，OpenAI在技术上明确禁止此类行为。不过，据知情人士透露，去年夏天，OpenAI的首席执行官山姆·奥特曼（Sam Altman）曾向众多初创公司创始人表示，规模较小的企业可以适度利用该公司的技术。

尽管奥特曼的这一表态为部分创始人带来了一丝宽慰，但一旦这种行为对OpenAI的增长构成威胁，该公司随时有可能改变立场。市场上充斥着对大多数客户而言足够好的人工智能产品，可能会削弱OpenAI和其他供应商的收入来源。同时，在类似技术基础上训练的人工智能产品的激增，也可能使得单个提供商在激烈的市场竞争中更难脱颖而出。

这种策略的实施方式如下：开发者首先向OpenAI支付费用，以获得对最先进模型GPT-4的访问权限。随后，他们向该模型提出一系列问题，如“这行代码存在哪些问题？” 通过收集这些答案和问题，他们进一步训练自己的竞争模型，比如那些能够调试计算机代码的模型。

这一策略在近几个月备受青睐，被众多开发者所采纳。Unsloth AI的联合创始人丹尼尔·韩（Daniel Han）估计，他的客户群体中，大约有一半的开发者会从GPT-4或Anthropic的Claude模型中生成数据，用以优化和增强自己的模型。Unsloth AI致力于协助开发者打造对话式人工智能产品。此外，许多公司也通过ShareGPT网站获取这类数据，该网站为开发者提供了一个平台，用以分享他们使用OpenAI模型生成的答案。

较小的开发者通常基于流行的开源模型进行模型开发，这些模型可以免费从Meta或Mistral AI等公司获取。然而，通过结合OpenAI模型的答案，他们的模型能够取得实质性的改进。一些开发者甚至利用名为OpenPipe的服务来自动化这一过程，从而更加高效地整合和优化数据。

Menlo Ventures的董事总经理马特·墨菲（Matt Murphy）对此表示：“这是一个尚未建立明确规则的新生态系统中的现象。如果大家都在使用同样的数据，那么如何才能在竞争中脱颖而出，取得更好的成果呢？”Menlo Ventures是OpenAI的竞争对手Anthropic的投资方。

风险回报更高

对一些公司而言，尽管冒着违反OpenAI等公司政策或隐性规则的风险，但这样的冒险可能值得一试。在如今竞争激烈的生成式人工智能市场中，获得高质量数据用于模型训练或改进变得至关重要。

然而，目前尚不明朗的是，OpenAI、谷歌、Anthropic和其他大型开发公司是否会允许规模较小的竞争对手有效复制他们的人工智能技术，以迅速追赶上来。一些投资者可能会对那些他们认为采取捷径或开发与竞争对手毫无差别的技术的公司持谨慎态度，尤其是当这些公司使用了相似的训练数据时。

Radical Ventures的合伙人罗布·托伊斯（Rob Toews）指出：“人工智能模型训练数据的质量和来源正逐渐成为业界关注的焦点之一。尽管目前尚无人能准确预测未来的发展趋势，但任何在数据来源方面缺乏深思熟虑和战略眼光的人工智能初创公司都可能会落后。”

尽管如此，初创公司使用OpenAI数据的做法，与OpenAI和其他领先的人工智能开发商在训练自家模型时所采取的策略存在某种相似性。例如，OpenAI的首席技术官米拉·穆拉蒂（Mira Murati）在最近的一次采访中，关于她的团队是否使用谷歌旗下YouTube和Meta旗下Facebook与Instagram数据进行模型训练的问题时，她的回答出现了失误。

如果OpenAI确实利用了这些数据，那也算不上意外之举。外媒近期爆出OpenAI如何借助YouTube视频创建语音识别工具Whisper，进而改进GPT-4模型的内幕。先前也有报道指出，OpenAI曾秘密使用YouTube数据来训练其早期的人工智能模型。本月早些时候，YouTube首席执行官尼尔·莫汉（Neal Mohan）明确表态，他不接受OpenAI使用YouTube视频来开发类似Sora这样的模型。

这一事件引发了美国出版商和一些创作者的强烈不满，他们指责人工智能开发商利用受版权保护的材料进行模型训练。去年12月，《纽约时报》甚至对OpenAI及其主要支持者微软提起诉讼，指控他们在模型训练过程中非法复制了《纽约时报》的文章。该诉讼称，OpenAI的聊天机器人甚至“能够逐字背诵《纽约时报》的内容”。

然而，OpenAI对此做出了回应，表示他们曾尝试与出版商建立合作伙伴关系，并坚称其训练实践符合美国“合理使用”的版权原则。尽管如此，OpenAI和谷歌还是与Axel Springer等出版商达成了价值数百万美元的授权协议，并与Reddit等主要网站达成了更广泛的合作协议。

当然，并非所有的人工智能开发者都采取这种策略。例如，Databricks是一家销售用于管理数据和利用人工智能的软件工具的公司，其首席科学家乔纳森·弗兰克尔（Jonathan Frankle）表示，该公司在开发强大的开源大语言模型时，并未依赖竞争对手的数据或技术。Anthropic的一位发言人也指出，他们同样不会利用其他模型的输出来训练自己的大模型。

谁能扛住模仿的诱惑？

对于那些秘密依赖其他人工智能服务来开发模型的开发者来说，一旦这种依赖关系被揭露，他们可能会陷入尴尬和困境。例如，Mistral和零一万物，这两家公司都使用了Meta的开源人工智能模型Llama 2来构建自己的人工智能产品，然而他们并未及时披露这一事实，直到信息意外泄露。尽管Meta的授权条款允许这种使用，但这些初创公司延迟披露的做法引起了一些应用程序开发者的不满，他们认为这些公司在诚实和透明度方面做得不够。但这并不妨碍两家公司成功融资数亿美元。

即使是大型科技公司，也难以抵挡使用他人成果的诱惑。例如，谷歌利用YouTube视频进行转录，而Meta则雇佣非洲承包商来总结受版权保护的书籍，以训练其人工智能模型。另外，Adobe也在初创公司Midjourney的人工智能生成照片上训练了自己的图像生成软件Firefly。去年，谷歌的一名高级人工智能工程师因为对公司使用OpenAI的ChatGPT数据来训练自家模型的做法表示担忧而辞职抗议。

Lamini是一家帮助开发者训练自己模型的初创公司，其首席执行官Sharon Zhou表示，在人工智能领域快速发展的背景下，日益增长的竞争压力使得许多开发者不得不转向有争议的训练数据来源，如受版权保护的内容或大语言模型生成的内容。如果他们选择不使用这些数据，就可能会失去竞争优势。

随着越来越多的公司投身于开发部分源自其他模型的人工智能产品，对这些模型进行区分可能变得日益棘手。这一趋势可能会削弱OpenAI等领军企业的竞争优势，迫使他们在价格上展开更激烈的竞争。特别是在企业用户越来越多地倾向于选择价格更亲民、性能“足够好”的大语言模型，而非最先进、最昂贵的选项时，这一竞争态势将愈发明显。

为了应对这一挑战，一种可能的替代方案是转向合成数据。这意味着企业不再依赖从互联网或其他来源抓取的人工生成内容，而是利用自己的人工智能模型来生成数据。例如，谷歌和Meta已经表示，他们正在使用合成数据来构建能够解决几何问题或生成计算机代码的模型。由于这些数据完全由人工智能产生，因此可以避免使用人工生成内容所带来的众多法律纠纷。

与此同时，数十家人工智能初创公司正积极获取医疗保健、律师事务所等行业的私人数据，以开发针对特定用途的模型。搜索分析公司Elastic的首席执行官阿什·库卡尼（Ash Kulkarni）指出，这些模型具有高度的专业性和定制化特点，使得OpenAI等公司的通用模型难以轻易复制。（编译/金鹿）