Common Crawl 被批为 AI 公司提供高质量付费墙文章
好的,我现在要帮用户总结一篇文章的内容,控制在100字以内。首先,我需要仔细阅读用户提供的文章内容,理解其主要观点和关键信息。
文章主要讲的是Common Crawl这个非盈利组织,成立于2007年,致力于存档互联网。他们抓取了数十亿网页,但最近因为被AI公司用来训练模型而引发争议。特别是他们绕过了付费墙,抓取了高质量的文章,并且在抓取过程中撒谎。Common Crawl声称不会绕过付费墙,并会删除新闻出版商要求的内容,但实际上并非如此。执行董事Rich Skrenta回应说,如果出版商不希望内容被抓取,就不应该发布到网上。他还解释说他们的爬虫不会执行付费墙代码,因此能直接阅读全文。过去一年中,Common Crawl的CCBot成为被屏蔽最多的抓取程序。
接下来,我需要将这些信息浓缩到100字以内。要抓住关键点:Common Crawl的成立时间、争议原因、涉及的AI公司、绕过付费墙的行为、执行董事的回应以及CCBot被屏蔽的情况。
可能的结构是:先介绍组织及其目标,然后说明争议和涉及的公司,接着描述他们如何绕过付费墙和执行董事的回应,最后提到CCBot的影响。
现在开始组织语言:
“Common Crawl成立于2007年,致力于存档互联网。近年来因向AI公司提供大量数据引发争议。该组织被指绕过付费墙抓取文章,并在操作上存在不透明之处。其执行董事表示出版商应避免在线发布敏感内容。”
检查一下字数是否在100字以内,并确保涵盖所有关键点:成立时间、目标、争议、AI公司、绕过付费墙、回应。
看起来这样可以满足要求。
Common Crawl成立于2007年,致力于存档互联网。近年来因向AI公司提供大量数据引发争议。该组织被指绕过付费墙抓取文章,并在操作上存在不透明之处。其执行董事表示出版商应避免在线发布敏感内容。