漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-04-03 talkingdev

Curl-impersonate:一款可模拟主流浏览器行为的定制化curl工具

近日,一款名为curl-impersonate的工具引发技术社区广泛关注。该工具是基于知名命令行工具curl的特殊构建版本,其核心功能在于能够模拟Chrome、Firefox、Safari等主流浏览器的网络请求特征。通过精确复现浏览器的TLS...

Read More
2025-02-21 talkingdev

高效网络爬虫技术助力LLM预训练,Crawl4LLM数据提取新突破

在LLM的预训练过程中,网络爬虫获取的数据往往因文本提取效率低下而被大量丢弃。然而,近期一项开源项目在GitHub上发布,显著提升了文档的保存率,并利用这些数据在少量爬取内容的基础上训练出更强大的模型。该项目...

Read More
2025-01-16 talkingdev

新型陷阱Nepenthes专门捕捉AI网络爬虫

Nepenthes是一种专门设计来捕捉人工智能网络爬虫的陷阱系统。该系统通过模拟网站和在线服务,吸引并“捕获”试图自动访问这些服务的AI爬虫。Nepenthes的工作机制类似于数字世界的“粘网”,一旦AI爬虫被诱入陷阱,Nepent...

Read More
2024-02-15 talkingdev

robots.txt:维护互联网秩序的文本文件

三十年来,robots.txt一直是维持互联网秩序的关键所在。这个简单的文本文件代表着早期互联网先驱者之间的协议,以尊重彼此的意愿,并以使每个人都受益的方式建立互联网。它允许运行网站的任何人告诉网络谁有权进入网...

Read More
2023-08-08 talkingdev

OpenAI发布GPTBot,详细介绍如何限制访问

OpenAI推出了一个网络爬虫来改善其人工智能模型。GPTBot将在搜索数据时严格过滤掉任何有付费墙限制的来源、违反OpenAI政策的来源或收集个人身份信息的来源。网站管理员可以选择是否允许该机器人访问他们的网站。该机...

Read More