当前位置:首页 > java技术文章 > springboot+webmagic实现java爬虫jdbc及mysql的方法

springboot+webmagic实现java爬虫jdbc及mysql实例代码

  • 发布时间:
  • 作者:码农之家原创
  • 点击:70

这篇文章主要知识点是关于springboot、webmagic、java、jdbc、mysql、的内容,如果大家想对相关知识点有系统深入的学习,可以参阅以下电子书

Java设计模式深入研究
  • 类型:Java大小:49.2 MB格式:PDF作者:刘德山
立即下载

springboot+webmagic实现java爬虫jdbc及mysql的方法

前段时间需要爬取网页上的信息,自己对于爬虫没有任何了解,就了解了一下webmagic,写了个简单的爬虫。

一、首先介绍一下webmagic:

webmagic采用完全模块化的设计,功能覆盖整个爬虫的生命周期(链接提取、页面下载、内容抽取、持久化),支持多线程抓取,分布式抓取,并支持自动重试、自定义UA/cookie等功能。

实现理念:

springboot+webmagic实现java爬虫jdbc及mysql的方法

Maven依赖:

<dependency>
   <groupId>us.codecraft</groupId>
   <artifactId>webmagic-core</artifactId>
   <version>0.7.3</version>
  </dependency>
  <dependency>
   <groupId>us.codecraft</groupId>
   <artifactId>webmagic-extension</artifactId>
   <version>0.7.3</version>
  </dependency>

  <dependency>
   <groupId>us.codecraft</groupId>
   <artifactId>webmagic-extension</artifactId>
   <version>0.7.3</version>
   <exclusions>
    <exclusion>
     <groupId>org.slf4j</groupId>
     <artifactId>slf4j-log4j12</artifactId>
    </exclusion>
   </exclusions>
  </dependency>

jdbc模式:

ublic class CsdnBlogDao {
  private Connection conn = null;
  private Statement stmt = null;

  public CsdnBlogDao() {
    try {
      Class.forName("com.mysql.jdbc.Driver");
      String url = "jdbc:mysql://localhost:3306/test?"
          + "user=***&password=***3&useUnicode=true&characterEncoding=UTF8";
      conn = DriverManager.getConnection(url);
      stmt = conn.createStatement();
    } catch (ClassNotFoundException e) {
      e.printStackTrace();
    } catch (SQLException e) {
      e.printStackTrace();
    }

  }

  public int add(CsdnBlog csdnBlog) {
    try {
      String sql = "INSERT INTO `test`.`csdnblog` (`keyes`, `titles`, `content` , `dates`, `tags`, `category`, `views`, `comments`, `copyright`) VALUES (?, ?, ?, ?, ?, ?, ?, ?,?);";
      PreparedStatement ps = conn.prepareStatement(sql);
      ps.setInt(1, csdnBlog.getKey());
      ps.setString(2, csdnBlog.getTitle());
      ps.setString(3,csdnBlog.getContent());
      ps.setString(4, csdnBlog.getDates());
      ps.setString(5, csdnBlog.getTags());
      ps.setString(6, csdnBlog.getCategory());
      ps.setInt(7, csdnBlog.getView());
      ps.setInt(8, csdnBlog.getComments());
      ps.setInt(9, csdnBlog.getCopyright());
      return ps.executeUpdate();
    } catch (SQLException e) {
      e.printStackTrace();
    }
    return -1;
  }
}

实体类:

public class CsdnBlog {
  private int key;// 编号

  private String title;// 标题

  private String dates;// 日期

  private String tags;// 标签

  private String category;// 分类

  private int view;// 阅读人数

  private int comments;// 评论人数

  private int copyright;// 是否原创

  private String content; //文字内容

  public String getContent() {
    return content;
  }

  public void setContent(String content) {
    this.content = content;
  }

  public int getKey() {
    return key;
  }

  public void setKey(int key) {
    this.key = key;
  }

  public String getTitle() {
    return title;
  }

  public void setTitle(String title) {
    this.title = title;
  }

  public String getDates() {
    return dates;
  }

  public void setDates(String dates) {
    this.dates = dates;
  }

  public String getTags() {
    return tags;
  }

  public void setTags(String tags) {
    this.tags = tags;
  }

  public String getCategory() {
    return category;
  }

  public void setCategory(String category) {
    this.category = category;
  }

  public int getView() {
    return view;
  }

  public void setView(int view) {
    this.view = view;
  }

  public int getComments() {
    return comments;
  }

  public void setComments(int comments) {
    this.comments = comments;
  }

  public int getCopyright() {
    return copyright;
  }

  public void setCopyright(int copyright) {
    this.copyright = copyright;
  }

  @Override
  public String toString() {
    return "CsdnBlog [key=" + key + ", title=" + title + ", content=" + content + ",dates=" + dates + ", tags=" + tags + ", category="
        + category + ", view=" + view + ", comments=" + comments + ", copyright=" + copyright + "]";
  }
}

启动类:

public class CsdnBlogPageProcessor implements PageProcessor {


  private static String username="CHENYUFENG1991"; // 设置csdn用户名

  private static int size = 0;// 共抓取到的文章数量

  // 抓取网站的相关配置,包括:编码、抓取间隔、重试次数等
  private Site site = Site.me().setRetryTimes(3).setSleepTime(1000);

  public Site getSite() {
    return site;
  }


  // process是定制爬虫逻辑的核心接口,在这里编写抽取逻辑
  public void process(Page page) {
    // 列表页
    if (!page.getUrl().regex("http://blog\\.csdn\\.net/" + username + "/article/details/\\d+").match()) {
      // 添加所有文章页
      page.addTargetRequests(page.getHtml().xpath("//div[@id='article_list']").links()// 限定文章列表获取区域
          .regex("/" + username + "/article/details/\\d+")
          .replace("/" + username + "/", "http://blog.csdn.net/" + username + "/")// 巧用替换给把相对url转换成绝对url
          .all());
      // 添加其他列表页
      page.addTargetRequests(page.getHtml().xpath("//div[@id='papelist']").links()// 限定其他列表页获取区域
          .regex("/" + username + "/article/list/\\d+")
          .replace("/" + username + "/", "http://blog.csdn.net/" + username + "/")// 巧用替换给把相对url转换成绝对url
          .all());
      // 文章页
    } else {
      size++;// 文章数量加1
      // 用CsdnBlog类来存抓取到的数据,方便存入数据库
      CsdnBlog csdnBlog = new CsdnBlog();
      // 设置编号
      csdnBlog.setKey(Integer.parseInt(
          page.getUrl().regex("http://blog\\.csdn\\.net/" + username + "/article/details/(\\d+)").get()));
      // 设置标题
      csdnBlog.setTitle(
          page.getHtml().xpath("//div[@class='article_title']//span[@class='link_title']/a/text()").get());

      //设置内容
      csdnBlog.setContent(
          page.getHtml().xpath("//div[@class='article_content']/allText()").get());

      // 设置日期
      csdnBlog.setDates(
          page.getHtml().xpath("//div[@class='article_r']/span[@class='link_postdate']/text()").get());
      // 设置标签(可以有多个,用,来分割)
      csdnBlog.setTags(listToString(page.getHtml().xpath("//div[@class='article_l']/span[@class='link_categories']/a/allText()").all()));
      // 设置类别(可以有多个,用,来分割)
      csdnBlog.setCategory(listToString(page.getHtml().xpath("//div[@class='category_r']/label/span/text()").all()));
      // 设置阅读人数
      csdnBlog.setView(Integer.parseInt(page.getHtml().xpath("//div[@class='article_r']/span[@class='link_view']")
          .regex("(\\d+)人阅读").get()));
      // 设置评论人数
      csdnBlog.setComments(Integer.parseInt(page.getHtml()
          .xpath("//div[@class='article_r']/span[@class='link_comments']").regex("\\((\\d+)\\)").get()));
      // 设置是否原创
      csdnBlog.setCopyright(page.getHtml().regex("bog_copyright").match() ? 1 : 0);
      // 把对象存入数据库
      new CsdnBlogDao().add(csdnBlog);
      // 把对象输出控制台
      System.out.println(csdnBlog);
    }
  }

  // 把list转换为string,用,分割
  public static String listToString(List<String> stringList) {
    if (stringList == null) {
      return null;
    }
    StringBuilder result = new StringBuilder();
    boolean flag = false;
    for (String string : stringList) {
      if (flag) {
        result.append(",");
      } else {
        flag = true;
      }
      result.append(string);
    }
    return result.toString();
  }

  public static void main(String[] args) {
    long startTime, endTime;
    System.out.println("【爬虫开始】...");
    startTime = System.currentTimeMillis();
    // 从用户博客首页开始抓,开启5个线程,启动爬虫
    Spider.create(new CsdnBlogPageProcessor()).addUrl("http://blog.csdn.net/" + username).thread(5).run();
    endTime = System.currentTimeMillis();
    System.out.println("【爬虫结束】共抓取" + size + "篇文章,耗时约" + ((endTime - startTime) / 1000) + "秒,已保存到数据库,请查收!");
  }
}

使用mysql类型:

public class GamePageProcessor implements PageProcessor {

  private static final Logger logger = LoggerFactory.getLogger(GamePageProcessor.class);
  private static DianJingService d;
  private static BannerService bs;
  private static SportService ss;
  private static YuLeNewsService ys;

  private static UpdateService ud ;
  // 抓取网站的相关配置,包括:编码、抓取间隔、重试次数等
  private Site site = Site.me().setRetryTimes(3).setSleepTime(1000);

  public Site getSite() {
    return site;
  }
  // process是定制爬虫逻辑的核心接口,在这里编写抽取逻辑
  public static void main(String[] args) {
    ConfigurableApplicationContext context= SpringApplication.run(GamePageProcessor.class, args);
     d = context.getBean(DianJingService.class);
    //Spider.create(new GamePageProcessor()).addUrl("网址").thread(5).run();
  }

  public void process(Page page) {
    Selectable url = page.getUrl();
    if (url.toString().equals("网址")) {
      DianJingVideo dv = new DianJingVideo();
      List<String> ls = page.getHtml().xpath("//div[@class='v']/div[@class='v-meta va']/div[@class='v-meta-title']/a/text()").all();
      //hrefs
      List<String> ls1 = page.getHtml().xpath("//div[@class='v']/div[@class='v-link']/a/@href").all();//获取a标签的href

      List<String> ls2 = page.getHtml().xpath("//div[@class='v']/div[@class='v-meta va']/div[@class='v-meta-entry']/div[@class='v-meta-data']/span[@class='r']/text()").all();
      //photo
      List<String> ls3 = page.getHtml().xpath("//div[@class='v']/div[@class='v-thumb']/img/@src").all();

      for (int i = 0; i < 5; i++) {
        dv.setTitles(ls.get(i));
        dv.setCategory("");
        dv.setDates(ls2.get(i));
        dv.setHrefs(ls1.get(i));
        dv.setPhoto(ls3.get(i));
        dv.setSources("");

        d.addVideo(dv);

      }
    }
}

Controller:

@Controller
@RequestMapping(value = "/dianjing")
public class DianJingController {
  @Autowired
  private DianJingService s;




    /*
    手游
     */
  @RequestMapping("/dianjing")
  @ResponseBody
  public Object dianjing(){
    List<DianJing> list = s.find2();
    JSONObject jo = new JSONObject();
    if(list!=null){

      jo.put("code",0);
      jo.put("success",true);
      jo.put("count",list.size());
      jo.put("list",list);
    }
    return jo;
  }
}

实体类就不展示了

dao层

@Insert("insert into dianjing (titles,dates,category,hrefs,photo,sources) values(#{titles},#{dates},#{category},#{hrefs},#{photo},#{sources})")
int adddj(DianJing dj);

以上这篇springboot+webmagic实现java爬虫jdbc及mysql的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持码农之家。

以上就是本次给大家分享的关于java的全部知识点内容总结,大家还可以在下方相关文章里找到相关文章进一步学习,感谢大家的阅读和支持。

推荐内容

idea2020注册激活码(激活到2100年)

实例分析Java实现的zip压缩及解压缩工具类

python3 pandas 如何读取MySQL数据和插入

ThinkPHP3.2.3框架如何实现分页功能

深入理解JS函数stack size计算方法

展开 +

收起 -

Java 相关电子书
学习笔记
网友NO.771596

Java实现基于JDBC操作mysql数据库的方法

本文实例讲述了Java实现基于JDBC操作mysql数据库的方法。分享给大家供大家参考,具体如下: package main;import java.sql.Connection;import java.sql.DriverManager;import java.sql.ResultSet;import java.sql.Statement;import java.util.ArrayList;import java.util.List;public class DBConnection { /** * 入口函数 * * @param arg */ public static ListString queryUserClosed(String today,String lastMonday) { ListString beanList = new ArrayListString(); try { Connection con = null; // 定义一个MYSQL链接对象 Class.forName("com.mysql.jdbc.Driver").newInstance(); // MYSQL驱动 con = DriverManager.getConnection( "jdbc:mysql://localhost:3306/my_db?useUnicode=true // 链接本地MYSQL Statement stmt; // 创建声明 stmt = con.createStatement(); // 查询数据并输出 StringBuffer sql = new StringBuffer(); sql.append(" select reason"); sql.append(" from t1"); sql.append(" GROUP BY reason"); String selectSql = sql.toString(); ResultSet selectRes = stmt.executeQue……

网友NO.984826

Java基于jdbc连接mysql数据库操作示例

本文实例讲述了Java基于jdbc连接mysql数据库操作。分享给大家供大家参考,具体如下: import java.sql.Connection;import java.sql.DriverManager;import java.sql.ResultSet;import java.sql.SQLException;import java.sql.Statement;public class MySQLDemo { private Connection conn = null; private Statement stmt = null; private ResultSet rs = null; private String driverclass = "com.mysql.jdbc.Driver"; private String url = "jdbc:mysql://localhost:3306/mydb"; private String user = "root"; private String password = "111111"; public MySQLDemo() { try { Class.forName(driverclass).newInstance(); // 加载驱动程序 } catch (InstantiationException e) { // TODO Auto-generated catch block e.printStackTrace(); } catch (IllegalAccessException e) { // TODO Auto-generated catch block e.printStackTrace(); } catch (ClassNotFoundException e1) { // TODO Auto-generated catch block System.out.println("class not found"); } try { conn = DriverManager.getConnection(url, user, password); /……

网友NO.341028

java+jdbc+mysql+socket搭建局域网聊天室

本文实现思路:利用UDP协议进行局域网信息传输,建立点对点的聊天网络,每个端用户有自己的一个mysql数据库,所以需要获取其数据库用户名和密码,然后通过该数据库内容发送信息,接收消息则没有限制, 步骤: 建立数据表存储主机ip,接收信息端口port,nickname 向所有用户发送信息 接收信息 小部件(添加好友,删除好友) 一、建立数据表存储主机ip,接收信息端口port,nickname 在mysql数据库里建立chatusr数据表,表的格式为: 检测表是否存在和建立数据表的代码如下: void linkdb() { try { Class.forName("com.mysql.jdbc.Driver"); conn = DriverManager.getConnection(url,user,password); DatabaseMetaData dbmd=conn.getMetaData(); ResultSet tableRS = dbmd.getTables(null, null, "chatusr", null ); if (tableRS.next()) System.out.println(" the table is exsited"); else { String sql = "CREATE TABLE chatusr("; sql+= " ip char(15),"; sql+= " port……

网友NO.306910

Java使用jdbc连接MySQL数据库实例分析

本文实例讲述了Java使用jdbc连接MySQL数据库的方法。分享给大家供大家参考,具体如下: 使用jdbc连接数据库: 可以直接在方法中定义url、user、psd等信息,也可以读取配置文件,但是在web项目中肯定是要使用第二种方式的,为了统一,只介绍第二种方式。 步骤 1、创建配置文件 db.properties 无论是eclipse还是myeclipse,在工程下 右键-new-file ,以properties为后缀名就好了。 配置文件内容: #连接数据库的url,如果主机地址是localhost,端口是3306也可以写成url=jdbc:mysql:///databasenameurl=jdbc:mysql://localhost:3306/databasename#用户名user=root#密码password=root#MySQL数据库加载驱动driverClass=com.mysql.jdbc.Driver 2、定义一个使用jdbc连接数据库的工具类JdbcUtil.java 工具类内容: public class JdbcUtil{ //定义全局变量 private static String url = null; private static String user = null; private static String password = nu……

网友NO.136905

JDBC中使用Java8的日期LocalDate和LocalDateTime操作mysql、postgresql

前言 相信大家应该都知道,在实体Entity里面,可以使用java.sql.Date、java.sql.Timestamp、java.util.Date来映射到数据库的date、timestamp、datetime等字段 但是,java.sql.Date、java.sql.Timestamp、java.util.Date这些类都不好用,很多方法都过时了。 Java8里面新出来了一些API,LocalDate、LocalTime、LocalDateTime 非常好用 如果想要在JDBC中,使用Java8的日期LocalDate、LocalDateTime,则必须要求数据库驱动的版本不能低于4.2 下面将分别演示如何在JDBC中使用Java8的日期LocalDate、LocalDateTime来操作mysql,postgresql,话不多说了,来一看看详细的介绍吧。 一:MySQL 首先创建表: create table tb_java8date (id int not null primary key auto_increment,t_date date, t_time time, t_datetime datetime); 然后,加入mysql的驱动 dependency groupIdmysql/groupId artifactIdmysql-connector-java/artifactId version5.1.37/version /dependency 上面说了,数据库驱动的版本不……

<
1
>

电子书 编程教程 文档 软件 源码 视频

Copyright 2018-2020 xz577.com 码农之家

本站所有电子书资源不再提供下载地址,只分享来路

免责声明:网站所有作品均由会员网上搜集共同更新,仅供读者预览及学习交流使用,下载后请24小时内删除

版权投诉 / 书籍推广 / 赞助:QQ:520161757