利用Java爬虫根据关键词获取17网（17zwd）商品列表：实战指南

在电商领域，通过关键词搜索商品并获取商品列表是常见的需求。17网（17zwd）作为知名的电商平台，提供了丰富的商品资源。本文将详细介绍如何使用Java爬虫技术根据关键词获取17网商品列表，并确保爬虫行为符合平台规范。

一、环境准备

（一）Java开发环境

确保你的系统中已安装Java开发环境（推荐使用JDK 1.8及以上版本）。

（二）安装所需依赖

使用Maven管理项目依赖，主要包括以下库：

Jsoup：用于解析HTML内容。
HttpClient：用于发送HTTP请求。

在pom.xml中添加以下依赖：

<dependencies><dependency><groupId>org.jsoup</groupId><artifactId>jsoup</artifactId><version>1.13.1</version></dependency><dependency><groupId>org.apache.httpcomponents</groupId><artifactId>httpclient</artifactId><version>4.5.13</version></dependency>
</dependencies>

二、编写爬虫代码

（一）发送HTTP请求

使用HttpClient发送GET请求，获取商品列表页面的HTML内容。

import org.apache.http.client.methods.CloseableHttpResponse;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.CloseableHttpClient;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.util.EntityUtils;public class HttpUtils {public static String getHtml(String url) {try (CloseableHttpClient httpClient = HttpClients.createDefault()) {HttpGet request = new HttpGet(url);request.setHeader("User-Agent", "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36");try (CloseableHttpResponse response = httpClient.execute(request)) {if (response.getStatusLine().getStatusCode() == 200) {return EntityUtils.toString(response.getEntity());} else {System.out.println("请求失败，状态码：" + response.getStatusLine().getStatusCode());}}} catch (Exception e) {e.printStackTrace();}return null;}
}

（二）解析HTML内容

使用Jsoup解析HTML内容，提取商品列表。

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;import java.util.ArrayList;
import java.util.List;public class HtmlParser {public static List<Product> parseHtml(String html) {List<Product> products = new ArrayList<>();Document doc = Jsoup.parse(html);// 根据17网的商品列表页面结构调整解析逻辑Elements productElements = doc.select("div.product-item");for (Element productElement : productElements) {String title = productElement.select("h3.title").text();String link = productElement.select("a").attr("href");String price = productElement.select("span.price").text();products.add(new Product(title, price, link));}return products;}
}

（三）定义商品实体类

定义一个简单的Product类，用于存储商品信息。

public class Product {private String title;private String price;private String link;public Product(String title, String price, String link) {this.title = title;this.price = price;this.link = link;}@Overridepublic String toString() {return "Product{" +"title='" + title + '\'' +", price='" + price + '\'' +", link='" + link + '\'' +'}';}
}

（四）整合代码

将上述功能整合到主程序中，实现完整的爬虫程序。

public class ProductCrawler {public static void main(String[] args) {String keyword = "书籍"; // 替换为实际关键词String url = "https://www.17zwd.com/search?q=" + keyword;String html = HttpUtils.getHtml(url);if (html != null) {List<Product> products = HtmlParser.parseHtml(html);for (Product product : products) {System.out.println(product);}} else {System.out.println("未能获取商品列表页面内容。");}}
}