GUN C正则表达式-C/C++-学习资源,学习图书,电子图书-教学资源-e时空

当前位置：主页 - 电脑 - 程序设计 - C/C++

GUN C正则表达式

来源：网络作者：simohayha 更新时间：2011-04-21

【收藏此页】【字号大中小】【打印】【关闭】

　　最近项目中要处理文本,因此就用了gun的正则表达式,它是posix风格的..我们一般使用的都是perl风格的,所以一开始使用可能会有一些不习惯.详细的区别可以在wiki上看到:

　　http://en.wikipedia.org/wiki/Regular_expression

　　头文件是regex.h可以在里面看到他所提供的接口.这里主要是3个函数和一个结构体:

　　引用

int regcomp (regex_t *compiled, const char *pattern, int cflags) int regexec (regex_t *compiled, char *string, size_t nmatch, regmatch_t matchptr [], int eflags) void regfree (regex_t *compiled) typedef struct { 　 regoff_t rm_so; 　 regoff_t rm_eo; } regmatch_t;

　　regcomp会将参数pattern编译为compiled,也就是讲字符串编译为正则表达式.

　　而参数cflags可以是下面1种或者几种的组合:

　　REG_EXTENDED

　　使用扩展的 posix　 Regular Expressions.

　　REG_ICASE

　　忽略大小写

　　REG_NOSUB

　　不存储匹配结果,只返回是否匹配成功.

　　REG_NEWLINE

　　可以匹配换行.

　　regexec执行匹配.compiled为刚才编译好的正则表达式,string为将要匹配的字符串,nmatch为后面的结构体数组的长度 (regmatch_t).matchptr为regmatch_t的一个数组(也就是存储着像perl里面的$0,$1这些的位置,也就是).而 eflag参数则可以是下面中的1个或多个.

　　REG_NOTBOL

　　会讲^作为一个一般字符来匹配,而不是一行的开始

　　REG_NOTEOL

　　会讲$作为一个一般字符来匹配,而不是一行的结束

　　regfree每次用完之后需要释放这个正则表达式.compiled为需要释放的正则表达式.

　　regmatch_t 中的rm_so为匹配字符的开始位置,rm_eo为结束位置.

　　说了这么多,其实使用很简单的:

　　引用

POSIX Regexp Compilation: Using regcomp to prepare to match. Flags for POSIX Regexps: Syntax variations for regcomp. Matching POSIX Regexps: Using regexec to match the compiled pattern that you get from regcomp. Regexp Subexpressions: Finding which parts of the string were matched. Subexpression Complications: Find points of which parts were matched. Regexp Cleanup: Freeing storage; reporting errors.

　　然后看个例子吧:

　　C代码　

#include　<stdio.h>　 #include　<regex.h>　 #include　<string>　 int　main(int　argc,　char**　argv)　 {　　　　　char*　pattern="abc([0-9]+)";　　　　　int　z=0;　　　　　char　*s_tmp="Abc1234";　　　　　regex_t　reg;　　　　　regmatch_t　pm[3];　　　　　z　=　regcomp(　&　reg,　pattern,　REG_EXTENDED|REG_ICASE);　　　　　z　=　regexec(　&　reg,　s_tmp,　3,　pm,　0);　　　if　(z　!=　0)　{　 //也就是不匹配　　　　　　　　　return　2;　　　　　}　　　　　std::string　s=s_tmp;　　　　　std::string　result0=s.substr(pm[0].rm_so,　pm[0].rm_eo-pm[0].rm_so);　　　　　std::string　result1=s.substr(pm[1].rm_so,　pm[1].rm_eo-pm[1].rm_so);　　　printf("[%s]\n",　result0.c_str());　　　　　printf("[%s]\n",　result1.c_str());　　　　　regfree(　&　reg);　　　　　return　0;　 }

　　很简单一个例子, 将会打印出Abc1234gh和1234.这里因为有括号,因此pm[0]存储着第0组的位置,pm[1]存储第1组的位置.

　　也谈谈自己的体会吧,那就是真不好用,不管是提供的接口还是posix风格的正则.而且据说是效率比较低下.因此如果有机会下次准备试试boost得正则或者pcre了..

其它资源

本类热门

热门排行

来源声明

版权与免责声明
1、本站所发布的文章仅供技术交流参考，本站不主张将其做为决策的依据，浏览者可自愿选择采信与否，本站不对因采信这些信息所产生的任何问题负责。
2、本站部分文章来源于网络，其版权为原权利人所有。由于来源之故，有的文章未能获得作者姓名，署“未知”或“佚名”。对于这些文章，有知悉作者姓名的请告知本站，以便及时署名。如果作者要求删除，我们将予以删除。除此之外本站不再承担其它责任。
3、本站部分文章来源于本站原创，本站拥有所有权利。
4、如对本站发布的信息有异议，请联系我们，经本站确认后，将在三个工作日内做出修改或删除处理。
请参阅权责声明！