AI训练数据的相关内容 - 漫话开发者

2025-11-01 talkingdev

AI爬虫请求注释脚本：新型恶意爬虫识别方法引发行业关注

一项来自密码学技术博客的研究揭示了AI网络爬虫行为的新特征：部分爬虫程序会主动请求包含代码注释的脚本文件。这一发现为识别具有数据贪婪性和不良行为的自动化爬虫提供了全新视角。技术专家通过分析网络请求模式发...

2025-09-21 talkingdev

根据《福布斯》杂志2025年10/11月刊的深度报道，由前谷歌、Facebook和Twitter资深技术专家Edwin Chen（陈德伟）创立的Surge AI在2024年实现12亿美元营收并实现盈利，现正以300亿美元估值进行10亿美元规模的融资。Sur...

2025-09-06 talkingdev

人工智能公司Anthropic近日同意支付15亿美元，就与图书作者的版权侵权集体诉讼达成和解。这一案件被视为AI训练数据版权争议的标志性事件，涉及生成式AI模型使用受版权保护内容的核心法律问题。和解金额创下同类案件...

2025-07-02 talkingdev

Cloudflare近日推出名为'Pay per Crawl'的创新市场平台，该平台允许网站所有者对抓取其内容的AI机器人收费。这一举措标志着网络内容产权保护进入新阶段，通过技术手段为原创内容提供者创造直接收益渠道。平台采用智...

2025-06-06 talkingdev

针对基于大语言模型（LLM）的数据标注中存在的标签不确定性问题，最新研究提出了一种创新解决方案。该方法不仅能够捕获多个可能的标签，还引入名为CanDist的师生框架，将这些标签蒸馏为单一输出。这一技术突破通过双...

2025-05-05 talkingdev

谷歌研究院近日宣布启动一项名为Amplify的全球数据收集计划，通过与各地区本土专家合作，旨在提升人工智能在服务不足地区的适用性。该计划聚焦非主流语言和文化场景下的数据缺口，采用社区共建模式采集高质量标注数...

2024-04-08 talkingdev

近期，科技巨头们在人工智能领域领跑的比赛中采取了一些颇具争议性的数据获取方式。OpenAI通过开发名为Whisper的语音识别工具，成功从YouTube视频中转录音频，为训练其AI系统提供了新文本。该团队最终转录了超过一百...

2023-11-13 talkingdev

据外媒报道，OpenAI近日宣布启动数据伙伴计划，旨在与合作伙伴共同构建开放和私有的AI训练数据集。这个计划的启动也许意味着OpenAI即将用尽其下一轮模型训练的代币。OpenAI表示，他们需要大量的数据来训练AI模型，但...