网络爬虫的相关内容 - 漫话开发者

2025-04-04 talkingdev

Curl-impersonate：一款可模拟主流浏览器行为的定制化curl工具

近日，一款名为curl-impersonate的工具引发技术社区广泛关注。该工具是基于知名命令行工具curl的特殊构建版本，其核心功能在于能够模拟Chrome、Firefox、Safari等主流浏览器的网络请求特征。通过精确复现浏览器的TLS...

2025-02-21 talkingdev

在LLM的预训练过程中，网络爬虫获取的数据往往因文本提取效率低下而被大量丢弃。然而，近期一项开源项目在GitHub上发布，显著提升了文档的保存率，并利用这些数据在少量爬取内容的基础上训练出更强大的模型。该项目...

2025-01-17 talkingdev

Nepenthes是一种专门设计来捕捉人工智能网络爬虫的陷阱系统。该系统通过模拟网站和在线服务，吸引并“捕获”试图自动访问这些服务的AI爬虫。Nepenthes的工作机制类似于数字世界的“粘网”，一旦AI爬虫被诱入陷阱，Nepent...

2024-02-15 talkingdev

三十年来，robots.txt一直是维持互联网秩序的关键所在。这个简单的文本文件代表着早期互联网先驱者之间的协议，以尊重彼此的意愿，并以使每个人都受益的方式建立互联网。它允许运行网站的任何人告诉网络谁有权进入网...

2023-08-08 talkingdev

OpenAI推出了一个网络爬虫来改善其人工智能模型。GPTBot将在搜索数据时严格过滤掉任何有付费墙限制的来源、违反OpenAI政策的来源或收集个人身份信息的来源。网站管理员可以选择是否允许该机器人访问他们的网站。该机...