首页
/ 正文

Java 实例 – 网页抓取（长文解析）

更新时间: 2025-03-27 12:26:55

💡一则或许对你有用的小广告

欢迎加入小哈的星球 ，你将获得：专属的项目实战(已更新的所有项目都能学习) / 1v1 提问 / Java 学习路线 / 学习打卡 / 每月赠书 / 社群讨论

新开坑项目:《Spring AI 项目实战》 正在持续爆肝中，基于 Spring AI + Spring Boot 3.x + JDK 21...， 点击查看 ;

《从零手撸：仿小红书（微服务架构）》 已完结，基于 Spring Cloud Alibaba + Spring Boot 3.x + JDK 17...，点击查看项目介绍 ;演示链接： http://116.62.199.48:7070 ;

《从零手撸：前后端分离博客项目（全栈开发）》 2 期已完结，演示链接： http://116.62.199.48/ ;

截止目前，星球内专栏累计输出 100w+ 字，讲解图 4013+ 张，还在持续爆肝中.. 后续还会上新更多项目，目标是将 Java 领域典型的项目都整一波，如秒杀系统, 在线商城, IM 即时通讯，权限管理，Spring Cloud Alibaba 微服务等等，已有 3700+ 小伙伴加入学习，欢迎点击围观

在数字化时代，网页抓取（Web Scraping）已成为数据获取的重要手段。无论是收集商品价格、新闻资讯，还是分析社交媒体动态，掌握网页抓取技术都能为开发者提供强大的工具。本文将通过 Java 实例 – 网页抓取 的主题，从基础概念到实战代码，逐步讲解如何用 Java 实现网页数据的高效抓取。即使你是编程新手，也能通过本文构建一个完整的抓取流程。

一、基础概念：网页抓取的底层逻辑

1.1 什么是网页抓取？

网页抓取是指通过程序自动访问网页，提取所需数据的过程。可以将其类比为“数字图书馆管理员”：

图书馆 → 网页
书籍内容 → HTML、JSON 等格式的数据
管理员借书 → 程序发送 HTTP 请求，获取网页内容

1.2 核心技术组件

1.2.1 HTTP 请求与响应

网页抓取的核心是模拟浏览器发送 HTTP GET/POST 请求，并解析服务器返回的响应。例如，访问 https://example.com 时，服务器会返回 HTML 文档。

1.2.2 HTML 解析

解析 HTML 的过程类似于“拆解乐高积木”：

HTML 文档 是由标签（如 <div>、<a>）组成的树形结构（DOM 树）。
解析器 负责将 HTML 转换为可操作的对象，方便开发者定位目标数据。

1.2.3 动态页面的特殊性

部分网页内容由 JavaScript 动态生成（如无限滚动加载的社交媒体列表）。此时，传统 HTTP 请求可能无法直接获取数据，需借助浏览器模拟工具（如 Selenium）。

二、Java 工具库的选择与对比

以下是 Java 网页抓取常用的工具库，根据需求选择合适的工具：

工具库	适用场景	优势与特点
Jsoup	静态 HTML 解析	简单易用，支持 CSS 选择器，内置 DOM 操作
Apache HttpClient	发送 HTTP 请求	高度可定制，支持复杂请求头与参数设置
Selenium	动态页面抓取	模拟真实浏览器行为，支持 JavaScript 渲染

表格说明：

Jsoup 是入门首选，适合静态网页的快速解析；
Apache HttpClient 适合需要精细控制请求（如代理、认证）的场景；
Selenium 是动态页面的“终极武器”，但需注意性能开销。

三、实战案例：从简单到复杂

3.1 案例 1：使用 Jsoup 抓取静态网页

3.1.1 目标：提取天气预报信息

假设目标网页 https://weather.example.com 的 HTML 结构如下：

<div class="weather-info">
    <h2>北京</h2>
    <p>温度：25°C</p>
    <p>天气：晴</p>
</div>

3.1.2 代码实现

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class WeatherScraper {
    public static void main(String[] args) {
        try {
            // 1. 发送 HTTP 请求并解析 HTML
            Document doc = Jsoup.connect("https://weather.example.com").get();
            
            // 2. 定位目标元素（使用 CSS 选择器）
            Element weatherInfo = doc.selectFirst(".weather-info");
            
            // 3. 提取数据
            String city = weatherInfo.select("h2").text();
            String temperature = weatherInfo.select("p:eq(0)").text();
            String condition = weatherInfo.select("p:eq(1)").text();
            
            // 4. 输出结果
            System.out.println("城市：" + city);
            System.out.println("温度：" + temperature);
            System.out.println("天气：" + condition);
            
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

3.1.3 关键点解析

Jsoup.connect()：发送 GET 请求，返回 Document 对象。
CSS 选择器：selectFirst() 获取第一个匹配元素，select() 返回所有匹配元素。
text() 方法：提取元素内的纯文本内容。

3.2 案例 2：处理动态页面（Selenium）

3.2.1 目标：抓取无限加载的社交媒体评论

假设目标网页通过 JavaScript 动态加载评论列表，需模拟用户滚动页面。

3.2.2 代码实现

import org.openqa.selenium.*;
import org.openqa.selenium.chrome.ChromeDriver;
import org.openqa.selenium.support.ui.ExpectedConditions;
import org.openqa.selenium.support.ui.WebDriverWait;

public class SocialMediaScraper {
    public static void main(String[] args) {
        // 1. 配置 WebDriver（需下载对应浏览器驱动）
        System.setProperty("webdriver.chrome.driver", "chromedriver.exe");
        WebDriver driver = new ChromeDriver();
        
        try {
            driver.get("https://social.example.com/post/123");
            
            // 2. 模拟滚动加载更多评论（循环判断是否可加载）
            while (true) {
                // 执行滚动到页面底部
                ((JavascriptExecutor) driver).executeScript("window.scrollTo(0, document.body.scrollHeight);");
                
                // 等待新评论加载（最多等待 5 秒）
                WebDriverWait wait = new WebDriverWait(driver, 5);
                try {
                    wait.until(ExpectedConditions.visibilityOfElementLocated(By.cssSelector(".loading-spinner")));
                } catch (TimeoutException e) {
                    break; // 无更多内容，退出循环
                }
            }
            
            // 3. 提取所有评论
            Elements comments = driver.findElements(By.cssSelector(".comment-text"));
            for (WebElement comment : comments) {
                System.out.println("评论内容：" + comment.getText());
            }
            
        } finally {
            driver.quit();
        }
    }
}

3.2.3 关键点解析

WebDriver：通过浏览器驱动（如 ChromeDriver）控制浏览器实例。
JavaScript 执行：executeScript() 可直接运行 JavaScript 代码模拟用户操作。
显式等待：通过 WebDriverWait 等待页面元素加载，避免因内容未加载完成导致的错误。

3.3 案例 3：解析 JSON 格式数据

3.3.1 目标：从 API 接口提取数据

假设目标接口返回以下 JSON：

{
    "data": {
        "name": "Java 实例 – 网页抓取",
        "author": "开发者",
        "views": 1500
    }
}

3.3.2 代码实现（使用 Gson 库）

import com.google.gson.JsonElement;
import com.google.gson.JsonParser;
import java.io.IOException;
import java.net.URI;
import java.net.http.HttpClient;
import java.net.http.HttpRequest;
import java.net.http.HttpResponse;

public class JsonScraper {
    public static void main(String[] args) {
        try {
            // 1. 发送 HTTP 请求
            HttpClient client = HttpClient.newHttpClient();
            HttpRequest request = HttpRequest.newBuilder()
                .uri(URI.create("https://api.example.com/data"))
                .build();
            
            HttpResponse<String> response = client.send(request, HttpResponse.BodyHandlers.ofString());
            
            // 2. 解析 JSON 数据
            JsonElement json = JsonParser.parseString(response.body());
            String name = json.getAsJsonObject().get("data").getAsJsonObject().get("name").getAsString();
            
            System.out.println("名称：" + name);
            
        } catch (IOException | InterruptedException e) {
            e.printStackTrace();
        }
    }
}

3.3.3 关键点解析

HttpClient（Java 11+）：提供简洁的 HTTP 请求实现。
Gson 库：用于解析 JSON，通过 getAsJsonObject() 等方法逐层访问数据。

四、进阶技巧与注意事项

4.1 优化请求行为

4.1.1 设置请求头

模拟浏览器行为可降低被封禁风险：

// 使用 Jsoup 设置 User-Agent
Document doc = Jsoup.connect("https://example.com")
    .userAgent("Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36")
    .get();

4.1.2 添加延迟与代理

避免频繁请求同一服务器：

// 在循环中添加延迟
Thread.sleep(2000); // 每次请求间隔 2 秒

4.2 处理反爬策略

验证码：部分网站会触发验证码（如 Cloudflare），需结合第三方服务或人工干预。
IP 封锁：使用代理池或公共代理（如免费代理库）。

4.3 法律与道德规范

遵守 Robots 协议：检查目标网站的 robots.txt 文件，避免抓取禁止的内容。
数据用途合规：确保抓取的数据用于合法用途（如学习、分析），避免侵犯隐私或商业利益。

五、结论

通过本文的 Java 实例 – 网页抓取 案例，读者已掌握从基础到进阶的抓取技术。无论是静态网页的 Jsoup 解析，还是动态页面的 Selenium 模拟，Java 提供了多样化的解决方案。未来，开发者可结合爬虫框架（如 Apache Nutch）或云服务（如 AWS Lambda）进一步扩展抓取能力。

实践建议：

从简单网页开始练习，逐步尝试复杂场景；
阅读目标网站的 Terms of Service，确保行为合法；
结合日志记录与异常处理，提升程序的健壮性。

通过持续实践，网页抓取将成为你挖掘数据价值的得力工具！