OpenAI也为数据犯难！公司承认使用爬虫自我设限难消公众怀疑

《科创板日报》8月10日讯（编辑宋子乔）数据、算力、算法，被视作生成式AI的三个核心要素，很难说哪个更重要。

但是，对于OpenAI这类明星公司来说，算力基本上是一个经济问题，大公司凭借“钞能力”囤积了大量昂贵的硬件，数据稀缺问题才更让其头疼，“不光彩”的数据获取方式总让它们陷入道德危机。

(相关资料图)

以OpenAI为例，其抓取公开数据训练AI模型的行为早就备受争议。据国外科技媒体Insider最新报道，OpenAI近日承认，其推出了名为GPTBot的网络爬虫机器人，用于抓取和收集数据用于大模型训练。

▌OpenAI被怀疑是“数据小偷”

网络爬虫，是一种模拟人（网络用户）的行为，自动浏览、收集网络信息的计算机程序。网络爬虫可以将自己所访问的数据保存下来，数据抓取者对这些数据进行分析等加工再利用，推测出互联网用户的偏好，再顺势推送给与之匹配的用户群体。

目前还不清楚OpenAI的爬虫机器人在网上潜伏了多久，有些人怀疑OpenAI已经秘密收集每个人的在线数据长达数月或数年。

面对这样的“指控”，OpenAI积极自辩，该公司表示，GPTBot将严格遵守任何付费墙的规则，不会抓取需要付费的信息，并且也不会收集能追踪到个人身份的数据。

此外，OpenAI上线了一种阻止GPTbot的方法，用户可以修改其robots.txt文件，或者屏蔽其IP地址，拒绝爬虫的造访。该公司最近还宣布与美联社达成一项协议，OpenAI将付费购买AI训练数据所需的美联社内容。

▌消失的信任

爬虫技术作为一种数据搜集的手段，本身并没有合法与非法之分。但OpenAI主动为其爬虫工具设限的举动，似乎并不能挽回公众对这家大模型头号公司的信任。

老牌科幻杂志《克拉克世界》的主编、雨果奖得主尼尔•克拉克（Neil Clarke）表示：“OpenAI和其他大模型公司一再用行动证明，他们不尊重作者、艺术家和其他创意人士的权利，他们的产品很大程度上基于他人受版权保护的作品。”

他还举例，CCBot是Common Crawl组织运营的另一种爬虫机器人，目前Common Crawl是人工智能模型训练数据的主要供应商，“据我所知，没有人成功让Common Crawl删除数据，”克拉克说，“我尝试过，没有得到任何回应。”

另一方面，在与大公司拉扯时，普通人大多时候处于弱势。正如克拉克所说，既然OpenAI愿意为（美联社）等大公司的数据付费，为什么它不为其他人的信息付费呢？“我就此询问了OpenAI，但没有得到回复。”

不过克拉克本身就站在OpenAI的对立面，其一手创办的《克拉克世界》正面临AI生成内容泛滥成灾的局面。克拉克曾指出，在ChatGPT于去年底开放后，AI生成的垃圾投稿激增，而检测这类作品的成本高昂，该杂志一度暂停征稿。

▌结语

此前，OpenAI已经因版权问题被多方状告，既有克拉克森律所推动的集体诉讼，也有保罗•崔布雷（Paul Tremblay）和莫纳•阿瓦德（Mona Awad）等畅销书作家在内的名人实名起诉。

随着生成式AI技术的进一步迭代，类似的纠纷只会多不会少。

大公司更容易成为众矢之的，即使它们敢于承担责任，但要做到数据获取完全合规，并不容易。由于参数量巨大，大模型需要借助分布式计算和云服务等技术来进行训练和部署，又增加了数据被窃取、篡改、滥用或泄露的风险。

如何平衡个人隐私保护和鼓励技术创新，如何找到企业生存与合规生产间的最优路径，已经是每个致力于生成式AI事业的公司绕不开的问题。

推荐内容

OpenAI也为数据犯难！公司承认使用爬虫 自我设限难消公众怀疑

我国海上风电累计装机连续两年位居全球首位

湖南炎陵：黄桃上市

索通发展08月09日被沪股通减持19.17万股

援琼医护人员：一年前的心愿今天圆了

益生股份08月09日被深股通减持94.12万股

lol沙皇技能（lol沙皇）

起底威创股份资产甩卖风波：公司称“不再适合持有幼教类资产”

金山办公：连续5日融资净偿还累计1.25亿元（08-09）

万控智造：融资净偿还36.11万元，融资余额5732.31万元（08-09）

沪深股通|中船防务8月9日获外资卖出0.01%股份

南京新百募投项目变更被问询 月内A股公司已有54个募投项目发生变化

主营业务需求不振致业绩下滑 英力股份跨界光伏、储能谋求突破

起底威创股份资产甩卖风波：公司称“不再适合持有幼教类资产”

“1+N”系列央企指数产品“上新” 首批3只中证国新央企现代能源ETF上市

新消费日报 | 百胜中国上半年净利润同比增166%；北京大兴机场单日旅客流量创纪录；深圳发布全国首个跨境电商9710出口阳光化公共服务产品……

“1+N”系列央企指数产品“上新” 首批3只中证国新央企现代能源ETF上市

具俊晔大S时隔23年重逢更多画面曝光！两人深情相拥，大S又哭又笑

气温降、需求增 降温需求限制什么意思

深山老林里的抗洪一线

中国银行理财怎么查询收益 中国银行理财产品查询

临夏和政：马背上的“速度与激情”

多省多地政府用真金白银扶持企业上市

玉塘街道念好“四字诀” 助力自建房安全工作提质增效

上市首日，股价狂飙3700%！要544年回本！盟固利基本面“透心凉”！解套有希望吗？

房产•博鳌观点 | 保利发展副总经理陈刚：不追求突飞猛进，愿做行业“长跑选手”

比亚迪总裁王传福：技术研发是科技自立自强的新长征

集中整治消除隐患一万多个 厦门多部门联手开展打击“黑气”专项行动

光伏产业链利润“向下”转移，下半年建议来了

新洁能：公司入选国家级专精特新“小巨人”企业

深交所：针对性减免京津冀、东北地区上市公司费用

科创板晚报|生益电子上半年净利同比下降94% 欧莱新材IPO提交注册

【基础教学】第二十四讲：毛坯模型精选篇（宓睿）

泰安交警城东大队对接一小区物业，就小区路口开设问题开展走访

深交所：针对性减免京津冀、东北地区上市公司费用

提升政务服务质效持续优化营商环境

​这9位艺人竟是混血儿？视后38岁得知“身世”，天后原来有多国血统

华为电脑如何还原系统（电脑如何还原系统）

【外盘异动】相较于下午收盘 伦镍下跌2.14%

基金分红之后需要交税吗 怎么样才要交税

奥运冠军王濛被带走调查？最新回应

山东强化重点领域制造业创新中心建设

中颖电子(300327.SZ)：公司在研的MCU主要是32位元的产品

拟上市公司早知道|迈迪顶峰、中科汇联等4家公司启动A股IPO辅导

8月9日有3只个股大宗交易超5000万元

光伏板下种菌菇 江西广昌“农光互补”照亮乡村振兴路

共5人！武汉这个区2023年度荆楚工匠名单公示

征信花了是什么意思？会带来哪些影响呢？

中旗新材股东户数下降9.47%，户均持股9.36万元

科创板今年唯一！N碧兴暴涨两次临停 但高点买入已亏超60%

OpenAI也为数据犯难！公司承认使用爬虫自我设限难消公众怀疑

南京新百募投项目变更被问询月内A股公司已有54个募投项目发生变化

主营业务需求不振致业绩下滑英力股份跨界光伏、储能谋求突破

气温降、需求增降温需求限制什么意思

中国银行理财怎么查询收益中国银行理财产品查询

集中整治消除隐患一万多个厦门多部门联手开展打击“黑气”专项行动

这9位艺人竟是混血儿？视后38岁得知“身世”，天后原来有多国血统

【外盘异动】相较于下午收盘伦镍下跌2.14%

基金分红之后需要交税吗怎么样才要交税

光伏板下种菌菇江西广昌“农光互补”照亮乡村振兴路

科创板今年唯一！N碧兴暴涨两次临停但高点买入已亏超60%