正则表达式和文本挖掘（TextMining）

创新互联公司是一家以网络技术公司，为中小企业提供网站维护、网站设计、成都网站设计、网站备案、服务器租用、空间域名、软件开发、小程序制作等企业互联网相关业务，是一家有着丰富的互联网运营推广经验的科技公司，有着多年的网站建站经验，致力于帮助中小企业在互联网让打出自已的品牌和口碑，让企业在互联网上打开一个面向全国乃至全球的业务窗口：建站联系热线：18982081108

在进行文本挖掘时，TSQL中的通配符（Wildchar）显得功能不足，这时，使用“CLR+正则表达式”是非常不错的选择，正则表达式看似非常复杂，但，万变不离其宗，熟练掌握正则表达式的元数据，就能熟练和灵活使用正则表达式完成复杂的Text Mining工作。

一，正则表达式的特殊字符

1，常用元字符

用以匹配特定的字符（字母，数字，符号），注意字母是区分大小写的：

. ：匹配除换行符以外的任意字符
\w ：匹配字母或数字或下划线或汉字
\s ：匹配任意的空白符
\d ：匹配数字
\b ：匹配单词的开始或结束
^ ：匹配字符串的开始
$ ：匹配字符串的结束
\k ：引用分组名，例如:\k，表示引用名字为group_name的分组
\group_number：group_number是分组的组号，1，2，3等，表示通过组号引用分组

2，重复字符或分组

指定前面一个字符或分组重复的次数：

* ：重复零次或更多次
+ ：重复一次或更多次
? ：重复零次或一次
{n} ：重复n次
{n,} ：重复n次或更多次
{n,m} ：重复n到m次

3，分组，转义，分支，限定符

这些字符有特定的含义和用途：

() ：用小括号表示一个分组
<>：定义分组名< 和 > 之间的字符串是分组名
\ ：转义字符，将特殊字符转移为普通字符，例如：\(，表示小括号“（”，小括号不再作为特殊字符
| ：分支，表达式之间是“或”的关系
[] ：指定限定字符列表，一个字符必须匹配列表中任意一个字符，在中括号中指定匹配的字符列表，例如：[aeiou] 一个字符必须aeiou中的任意一个；
[^ ] ：指定排除字符列表，一个字符不能是排除列表中的任意一个字符，中括号中指定排除的字符列表，例如：[^aeiou] 一个字符不能是aeiou中的任意一个；

二，分组引用

分组，是使用小括号指定的一个子表达式；分组引用，是指在表达式中，重复使用子表达式，使正则表达式的写法更简洁。默认情况下，正则表达式为每个分组自动分配一个组号，规则是：组号从1开始，从左向右，组号依次加1（base-1），例如，第一个分组的组号为1，第二个分组的组号为2，以此类推。

分组定义的三种形式：

(exp) ：自动分配组号，通过分组号引用该分组；
(?exp) ：命名分组，通过分组名引用该分组；
(?:exp) ：该分组只在当前位置匹配文本，在该分组之后，无法引用该分组，该分组没有分组名，也没有分组号；

1，通过组号引用分组

在正则表达式前面定义一个分组(exp)，在表达式的后面，能够通过组号引用该分组的表达式，引用分组的语法是：\group_number；

例如：\b(\w+)\b\s+\1\b，在该正则表达式中，只存在一个分组(\w+)，组号是1，在该分组的后面，使用\1来引用该分组，将\1替换为分组的子表达式，等价于：\b(\w+)\b\s+(\w+)\b。

2，通过分组名引用分组

在正则表达式中，能够对分组命名，命名的分组格式：(?exp)，分组名是name，通过name来引用该分组的格式是：\k，通过分组名和组号引用分组，其文本匹配的行为是一样的。

例如：\b(?\w+)\b\s+\1\b，在该分组的后面中，使用\k引用该分组，将\k替换为分组的子表达式，等价于：\b(\w+)\b\s+(\w+)\b。

3，无法引用的分组

(?:exp)：使用这种语法定义的分组，不能引用，只能在当前的位置匹配文本，正则表达式不为该分组自动分配组号。

三，断言查找

断言是一个逻辑表达式，只有当表达式为真时，匹配成功。当匹配成功时，返回文本，返回的文本不包含前缀或后缀，即，断言用于查找在特定“文本”之前或之后的文本。断言的四种语法：

(?=exp)：文本的后面匹配表达式exp，返回exp位置之前的表达式
(?<=exp) ：文本的前面匹配表达式exp，返回exp位置之后的表达式
(?!exp)：文本的后缀不是exp，返回后缀不是exp的表达式
(?：文本的前缀不是exp，返回前缀不是exp的表达式

1，后缀匹配

(?=exp)：文本的后面匹配表达式exp，返回exp位置之前的表达式。后缀匹配，和TSQL的 "%ing"类似；

比如正则表达式：\b\w+(?=ing\b)

分析：断言其后缀是ing，并且是单词的结尾(\b)，匹配以ing结尾的单词，但返回单词的前面部分，ing之前的部分；

例如，查找“I'm reading a book”，它会匹配“reading”，因为该字符后面以ing结尾，该正则表达式返回read，断言返回的文本不包含后缀。

2，前缀匹配

(?<=exp)：文本的前面匹配表达式exp，返回exp位置之后的表达式。前缀匹配，和TSQL的 "re%"类似；
比如正则表达式：(?<=\bre)\w+\b

分析：单词的打头(\b)，并且单词的前缀是re，匹配以re开头的单词，返回单词的后半部分，re之后的部分；

例如，查找“I am reading a book”，它会匹配“reading”，因为该字符前面以re打头，该正则表达式返回ading，断言返回的文本不包含前缀。

3，查找前缀或后缀不是特定文本的文本

这两个断言查找，跟前面两个相反，作用不大，简单了解一下：

(?!exp) ：文本的后缀不是exp，返回后缀不是exp的表达式
(?：文本的前缀不是exp，返回前缀不是exp的表达式

3.1 比如，正则表达式：\b\w+(?!ing\b)

分析：不匹配以ing结尾的单词，查找“I am reading a book”，返回的文本：I,am,a,book

3.2 比如，正则表达式：(?

分析：不匹配以re打头的单词，查找“I am reading a book”，返回的文本：I,am,a,book

网站栏目：正则表达式和文本挖掘（TextMining）
链接地址：http://kswjz.com/article/ishjhe.html

扫二维码与项目经理沟通

我们在微信上24小时期待你的声音

解答本文疑问/技术咨询/运营咨询/技术建议/互联网交流

其他资讯

python有贝塞尔函数,python 贝塞尔函数
linux命令发数据库,linux进去数据库指令
python求平方的函数,python中求平方的函数
java项目代码说明文档,大学生java项目说明文档
java的循环慢点代码,java简单的循环代码

行业动态

企业网站建设的重要性！

现在虽然是移动互联网时代，但企业网站依然重要，包含PC站点，移动站。可以说企业网站关系企业的未来发展和前途，尤其对中小企业更是如此，一些中小企业老板，对自己的名片很在乎，因为这是个门面。...

服务项目

网站建设

查看详情

移动端/APP

查看详情

微信/小程序

查看详情

技术支持

查看详情

其它服务

查看详情

更多服务项目

用我们的专业和诚信赢得您的信赖，从PC到移动互联网均有您想要的服务！
获取更多

联系吧在百度地图上找到我们

电话：13518219792

如遇占线或暂未接听请拨：136xxx98888

业务咨询技术咨询售后服务

网站设计

宜宾网站设计
企业网站设计
响应式网站设计
高端网站设计推广

网站制作

成都网站制作
成都网站制作
盐亭网站制作公司
手机网站制作

联系我们

电话：13518219792

邮箱：631063699@qq.com

地址：成都青羊区锦天国际1002号

网址：www.kswjz.com

网站建设

成都营销网站建设
成都网站建设
邛崃网站建设
响应式网站建设

微信二维码

友情链接

重庆水土三线托管
温江网站建设
宜宾网站建设
广汉锦华建材
眉山电信机房托管
成都网站制作
成都模板网站
四川盐亭做网站
小谭建站工作室
成都主机托管

Copyright © 2002-2023 www.kswjz.com 快上网建站品牌 QQ：244261566 版权所有 备案号：蜀ICP备19037934号

在线咨询

13518219792

微信二维码

移动版官网

正则表达式和文本挖掘（TextMining）

扫二维码与项目经理沟通

其他资讯

行业动态

企业网站建设的重要性！

服务项目

网站建设

移动端/APP

微信/小程序

技术支持

其它服务

更多服务项目

联系吧 在百度地图上找到我们

电话：13518219792

联系吧在百度地图上找到我们