
创建或修改目录:/www/wwwroot/104.219.215.234/data 失败!
发布日期:2025-04-04 09:49 点击次数:201
IT之家 4 月 3 日讯息亚洲幼女,维基百科运营方维基媒体基金会在当地时候 4 月 1 日的一份博文中暗意,为 AI 测验数据集持取资源的集中爬虫正对这家非谋利性组织带来运营开支上的压力。
维基百科的姊妹神色维基分享资源(IT之家注:Wiki Commons)存储着无数可用于 AI 模子测验的多媒体贵府集。凭证统计数据,自 2024 年 1 月以来从维基分享资源下载多媒体骨子的带宽增长了 50%,而这一变化趋势主要由自动化设施而非东说念主类操作导致。
维基媒体基金会此前有才调搪塞突发事件导致的东说念主类用户的流量激增,但 AI 期间自动爬虫作为的日益时时正不休侵蚀该组织现存的冗余度,让基金会将无数时候和资源用于反馈非真东说念主流量。
维基媒体基金会的数据存储的模式是低使用频率骨子仅存放在中枢数据中心,而高频苦求的数据则将在更相近的数据中心提供备份。
自动爬虫的“遍历式”查询步地意味着其有更多的流量发送到中枢数据中心,这带来了更高的流量老本。凭证维基媒体基金会的统计,机器东说念主以 35% 的总体浏览量亏空了 65% 的中枢数据中心流量资源。
此外,自动爬虫甚而还去拜访了维基媒体基金会设备环境要津系统(如代码审查平台、造作追踪器)的 URL。
维基媒体基金会暗意天然该组织口角谋利的,各神色标骨子是免费提供的,但其基础设施却不是免费赢得的,应缔造一个负背负、可陆续的基础设施使用次序,勿重演“公地悲催”。
告白声明:文内含有的对外跳转一语气(包括不限于超一语气、二维码、口令等形势)亚洲幼女,用于传递更多信息,勤俭甄选时候,成果仅供参考,IT之家扫数著作均包含本声明。