Java教程

Java_正则表达式和文本操作

本文主要是介绍Java_正则表达式和文本操作,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!

正则表达式语法

普通字符

字母、数字、汉字、下划线、以及没有特殊定义的标点符号,都是“普通字符”。表达式中的普通字符,在匹配一个字符串的时候,匹配与之相同的一个字符。

简单的转义字符

\n 代表换页符
\t 制表符
\^, \$, \\(, \\), \{, \}, \?, \+, \*, \\[, \\], \| 匹配这些字符本身

标准字符集:

  • 能够与 ‘多种字符’ 匹配的表达式
  • 注意区分大小写,大写是相反的意思
\d 任意一个数字,0-9中的任意一个
\w 任意一个字母或数字或下划线,也就是A~Z,a~z,0~9,_ 中任意一个
\s 包括空格、制表符、换行符等空白字符的其中任意一个
. 小数点可以匹配任意一个字符,如果要匹配包括“\n”在内的所有字符,一般用[\s\S]

自定义字符集合

  • [] 方括号匹配方式,能够匹配方括号中任意一个字符
ab5@ 匹配“a” 或“b”或“5”或“@”
^abc 匹配“a”,“b”,“c”之外的任意一个字符
[f-k] 匹配“f”~“k”之间的任意一个字母
[^A-F 0~3] 匹配“A”~ “F”,“0”~“3”之外的任意一个字符
  • 正则表达式的特殊符号,被包含到中括号中,则失去特殊意义,除了^,-之外。
  • 标准字符集合,除小数点外,如果被包含于中括号,自定义字符集合将包含该集合。比如: [\d.-+]将匹配:数字、小数点、+、-

量词

  • 修饰匹配次数的特殊符号
{n} 表达式重复n次
{m,n} 表达式至少重复m次,最多重复n次
{m,} 表达式至少重复m次
? 匹配表达式0次或者1次,相当于{0,1}
+ 表达式至少出现1次,相当于{1,}
* 表达式不出现或者出现任意次,相当于{0,}
  • 匹配次数中的贪婪模式(匹配字符越多越好,默认)
  • 匹配次数中的非贪婪模式(匹配字符越少越好,修饰匹配次数的特殊符号后再加上一个“?”号)

字符边界

  • (本组标记匹配的不是字符而是位置,符合某种条件的位置)
^ 与字符串开始的地方匹配
$ 与字符串结束的地方匹配
\b 匹配一个单词边界
  • \b匹配这样一个位置:前面的字符和后面的字符不全是\w

选择符和分组

表达式 作用
| 分支结构 左右两边表达式之间"或"关系,匹配左边或者右边
() 捕获组 (1).在被修饰匹配次数的时候,括号中的表达式可以作为整体被修饰捕获组(2).取匹配结果的时候,括号中的表达式匹配到的内容可以被单独得到(3).每一对括号会分配一个编号,使用()的捕获根据左括号的顺序从1开始自动编号。捕获元素编号为零的第一个捕获是由整个正则表达式模式匹配的文本
(?:Expression) 非捕获组 一些表达式中,不得不使用(),但又不需要保存()中子表达式匹配的内容,这时可以用非捕获组来抵消使用()带来的副作用。

反向引用(\nnn )

  • 每一对()会分配一个编号,使用()的捕获根据左括号的顺序从1开始自动编号。
  • 通过反向引用,可以对分组已捕获的字符串进行引用。

预搜索(零宽断言)

  • 只进行子表达式的匹配,匹配内容不计入最终的匹配结果,是零宽度
  • 这个位置应该符合某个条件。判断当前位置的前后字符,是否符合指定的条件,但不匹配前后的字符。是对位置的匹配
  • 正则表达式匹配过程中,如果子表达式配到的是字符内容,而非位置,并被保存到最终的匹配结果中,那么就认为这个子表达式是占有字符的;如果子表达式匹配的仅仅是位置,或者匹配的内容并不保存到最终的匹配结果中,那么就认为这个子表达式是零宽度的。占有字符还是零宽度,是针对匹配的内容是否保存到最终的匹配结果中而言的。
(?=exp) 断言自身出现的位置的后面能匹配表达式exp
(?<=exp) 断言自身出现的位置的前面能匹配表达式exp
(?lexp) 断言此位置的后面不能匹配表达式exp
(?<!exp) 断言此位置的前面不能匹配表达式exp

正则表达式的匹配模式

  • IGNORECASE 忽略大小写模式
    • 匹配时忽略大小写
    • 默认情况下,正则表达式是要区分大小写的。
  • SINGLELINE 单行模式
    • 整个文本看作一个字符串,只有一个开头,一个结尾。
    • 使小数点“.” 可以匹配包含换行符(\n)在内的任意字符。
  • MULTLINE 多行模式
  • 每行都是一个字符串,都有开头和结尾
  • 在指定了MULTLINE之后,如果需要仅匹配字符串开始和结束位置,可以使用\A和\Z

常用正则表达式列表

在这里插入图片描述

其他妙用

在这里插入图片描述

JAVA程序中使用正则表达式

在这里插入图片描述

JAVA代码

测试正则表达式对象的基本用法

import java.util.regex.Matcher;
import java.util.regex.Pattern;

/**
 * 测试正则表达式对象的基本用法
 */
public class Demo01 {
    public static void main(String[] args) {
        //这个字符串:asfsdf23323,是否符合指定的正则表达式: \w+

        //表达式对象
        Pattern p = Pattern.compile("\\w+");

        //创建Matcher对象
        Matcher m = p.matcher("asfsdf&&23323");

//        boolean yes_no = m.matches();//尝试将整个字符序列与该模式进行匹配
//        System.out.println(yes_no);

        //boolean yes_no2 = m.find(); // 该方法扫描输入的序列,查找与该模式匹配的下一个子序列

        System.out.println(m.find());
        System.out.println(m.group());

        System.out.println(m.find());
        System.out.println(m.group());


        //System.out.println(m.find());
        System.out.println(m.find() ? m.group() : "null");

        while (m.find()){
            System.out.println(m.group()); //group(),group(0)匹配整个表达式的子字符串
            System.out.println(m.group(0));
        }
    }
}

试正则表达式对象中分组的处理

import java.util.regex.Matcher;
import java.util.regex.Pattern;

/**
 * 测试正则表达式对象中分组的处理
 */
public class Demo02 {
    public static void main(String[] args) {
        //这个字符串:asfsdf23323,是否符合指定的正则表达式: \w+

        //表达式对象
        Pattern p = Pattern.compile("([a-z]+)([0-9]+)");

        //创建Matcher对象
        Matcher m = p.matcher("aa2223**sad445*asd21");

        while (m.find()){
            System.out.println(m.group()); //group(),group(0)匹配整个表达式的子字符串
            System.out.println(m.group(1));
            System.out.println(m.group(2));
        }
    }
}


替换

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class Demo03 {
    public static void main(String[] args) {

        Pattern p = Pattern.compile("[0-9]");
        Matcher m = p.matcher("aa2323***sad1213**asd11");

        //替换
        String newStr = m.replaceAll("#");
        System.out.println(newStr);

    }
}

测试正则表达式对象的分割字符串的操作

import java.util.Arrays;

/**
 * 测试正则表达式对象的分割字符串的操作
 */
public class Demo04 {
    public static void main(String[] args) {
        String str = "a23234sad23423csdr23wef2f23f";
        String[] arrs = str.split("\\d+");
        System.out.println(Arrays.toString(arrs));
    }
}

爬虫

import java.util.*;
import java.io.*;
import java.net.*;
import java.nio.charset.Charset;
import java.util.regex.*;

public class WebSpiderTest {
    /**
     *  获得urlStr对应的网页的源码内容
     * @param urlStr
     * @return
     */
    public static String getURLContent(String urlStr,String charset){
        StringBuffer sb = new StringBuffer();
        try {
            URL url = new URL(urlStr);
            BufferedReader reader = new BufferedReader(new InputStreamReader(url.openStream(), Charset.forName(charset)));
            String temp = "";
            while ((temp= reader.readLine())!=null){
                sb.append(temp);
            }
        } catch (MalformedURLException e) {
            e.printStackTrace();
        } catch (IOException e) {
            e.printStackTrace();
        }
        return sb.toString();
    }

    public static List<String> getMatherSubstrs(String destStr, String regexStr){
        Pattern p = Pattern.compile(regexStr);
        Matcher m = p.matcher(destStr);
        List<String> result = new ArrayList<String>();
        while (m.find()){
            result.add(m.group(1));
        }
        return result;
    }

    public static void main(String[] args) {
        String destStr = getURLContent("https://www.163.com","gbk");
        List<String> result = getMatherSubstrs(destStr,"href=\"([\\w\\s./:]+?)\"");

        for (String temp : result){
            System.out.println(temp);
        }

    }
}

这篇关于Java_正则表达式和文本操作的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!