本站所有内容仅限用于学习和研究目的,如有侵权请邮件与我们联系处理!
世上事本无难易,为之则易!

网站首页 站长福利 福利文章 正文

PHP代码实现使用伪造的百度蜘蛛UA和IP对目标网站进行爬取

曹操 2023-05-27 福利文章 2212 ℃ 49 评论 2818字 free 收藏

有很多网站设置了ua识别或ip识别,使得访客不可以查看网站原页面,使用php进行Curl的方式,可以查看网页源码。

<?php
// 设置伪造的百度蜘蛛 UA 和 IP
define('BAIDU_SPIDER_UA', 'Mozilla/5.0 (Linux; U; Android 4.4.4; zh-cn; MA5 Build/KTU84P) AppleWebKit/537.36 (KHTML, like Gecko) Version/4.0 Chrome/78.0.3904.108 Mobile Safari/537.36 [Baiduspider-mobile-ads]');
$ip = '116.179.32.' . rand(1, 255); // 随机生成一个 IP 地址
define('BAIDU_SPIDER_IP', $ip);

// 初始化 CURL 句柄
$ch = curl_init();

// 设置请求参数和 HTTP 头信息
$url = "目标站";
$options = array(
    CURLOPT_URL => $url,
    CURLOPT_HEADER => true, // 需要包含响应头信息
    CURLOPT_USERAGENT => BAIDU_SPIDER_UA,
    CURLOPT_HTTPHEADER => array(
        'X-Forwarded-For: ' . BAIDU_SPIDER_IP,
        'Accept-Encoding: gzip, deflate, br', // 保持与浏览器一致的压缩模式
    ),
    CURLOPT_ENCODING => 'gzip, deflate, br',
    CURLOPT_RETURNTRANSFER => true,
    CURLOPT_FOLLOWLOCATION => true, // 表示可以自动跳转
);

// 执行 CURL 请求并处理响应数据
curl_setopt_array($ch, $options);
$result = curl_exec($ch);

if (curl_errno($ch)) {
    echo 'CURL 错误:' . curl_error($ch);
}
else {
    // 输出服务器返回的 HTTP 头信息和原始响应数据
    $header_size = curl_getinfo($ch, CURLINFO_HEADER_SIZE);
    $response_headers = substr($result, 0, $header_size);
    $response_body = substr($result, $header_size);

    echo "HTTP Headers:<br>";
    echo nl2br(htmlspecialchars($response_headers)) . "<br><br>";
    echo "Response body:<br>";
    echo nl2br(htmlspecialchars($response_body));
}

// 关闭 CURL 句柄
curl_close($ch);

这段代码通过 CURL 发送一个带有特定 HTTP 头信息的 GET 请求,以模拟百度蜘蛛的访问,并输出服务器返回的 HTTP 头信息和响应数据。

其中,设置了 User-Agent 和 X-Forwarded-For 头信息来伪造百度蜘蛛的 UA 和 IP 地址,同时在 HTTP 头信息中声明 Accept-Encoding 以适应各种服务器端压缩方式。

需要注意,此代码仅用于演示如何设置 HTTP 头信息,严禁用于非法操作。

另外,百度蜘蛛的 IP 地址是可变的,如果需要精确模拟爬虫访问,需要获取最新的 IP 地址并替换 BAIDU_SPIDER_IP 常量。


Tags:服务器蜘蛛源码

必看说明

  • 本站中所有被研究的素材与信息全部来源于互联网,版权争议与本站无关。
  • 本站文章或仅为文本内容原创,非程序原创。如有侵权、不妥之处,请联系站长第一时间删除。敬请谅解!
  • 本站所有内容严格遵守国家法律的条例,所有研究的算法技术均来源于搜索引擎公开默认允许用户研究使用的接口。
  • 阅读本文及获取资源前,请确保您已充分阅读并理解《访问曹操SEO网站需知:行为准则》。
  • 本站分享的任何工具、程序仅供学习参考编写架构,仅可在本地的虚拟机内断网测试,严禁联网运行或上传搭建!
  • 任何资源必须在下载后24个小时内,从电脑中彻底删除。不得传播或者用于其他任何用途!否则一切后果用户自负!
  • 转载请注明 : 文章转载自  曹操SEO PHP代码实现使用伪造的百度蜘蛛UA和IP对目标网站进行爬取
  • 本文标题:《PHP代码实现使用伪造的百度蜘蛛UA和IP对目标网站进行爬取》
  • 本文链接:https://www.ccooc.cn/1992.html

已有49位网友发表了看法:

  • auto_ux2qzt8w

    auto_ux2qzt8w  评论于 [2023-11-01 20:10:38]  回复

    可以看到301屏蔽后的网站吗

  • 秋

      评论于 [2023-05-30 16:25:56]  回复

    有ip 列表吗

    • 曹操

      曹操  评论于 [2023-06-01 09:35:06]  回复

      蜘蛛IP段?

  • weikeduo222

    weikeduo222  评论于 [2023-05-28 21:14:43]  回复

    不好使。
    比如这个url:http://www.eduhn.shuzhiproper.top/news/MdNjB.html
    尝试了很多方式,抓不到源码

    • 访客

      访客  评论于 [2023-05-29 16:05:52]  回复

      这很简单 我可以获取到呀

欢迎 发表评论:

网站分类
近期评论
文章归档
标签列表
站点信息
  • 文章总数:2022
  • 页面总数:7
  • 分类总数:46
  • 标签总数:340
  • 评论总数:27592
  • 浏览总数:5355403