当前位置:主页   - 电脑 - 程序设计 - C/C++
C语言程序设计入门系列之一
来源:网络   作者:   更新时间:2012-03-04
收藏此页】    【字号    】    【打印】    【关闭

  如果用户熟悉Linux下的sed、awk、grep或vi,那么对正则表达式这一概念肯定不会陌生。由于它可以极大地简化处理字符串时的复杂度,因此现在已经在许多Linux实用工具中得到了应用。千万不要以为正则表达式只是Perl、Python、Bash等脚本语言的专利,作为C语言程序员,用户同样可以在自己的程序中运用正则表达式。

  标准的C和C++都不支持正则表达式,但有一些函数库可以辅助C/C++程序员完成这一功能,其中最著名的当数Philip Hazel的Perl-Compatible Regular Expression库,许多Linux发行版本都带有这个函数库。

  编译正则表达式

  为了提高效率,在将一个字符串与正则表达式进行比较之前,首先要用regcomp()函数对它进行编译,将其转化为regex_t结构:

int regcomp(regex_t *preg, const char *regex,
int cflags);

  参数regex是一个字符串,它代表将要被编译的正则表达式;参数preg指向一个声明为regex_t的数据结构,用来保存编译结果;参数cflags决定了正则表达式该如何被处理的细节。

  如果函数regcomp()执行成功,并且编译结果被正确填充到preg中后,函数将返回0,任何其它的返回结果都代表有某种错误产生。

  匹配正则表达式

  一旦用regcomp()函数成功地编译了正则表达式,接下来就可以调用regexec()函数完成模式匹配:

int regexec(const regex_t *preg,
const char *string, size_t nmatch,
regmatch_t pmatch[], int eflags);
typedef struct {
regoff_t rm_so;
regoff_t rm_eo;
} regmatch_t;

  参数preg指向编译后的正则表达式,参数string是将要进行匹配的字符串,而参数nmatch和pmatch则用于把匹配结果返回给调用程序,最后一个参数eflags决定了匹配的细节。

  在调用函数regexec()进行模式匹配的过程中,可能在字符串string中会有多处与给定的正则表达式相匹配,参数pmatch就是用来保存这些匹配位置的,而参数nmatch则告诉函数regexec()最多可以把多少个匹配结果填充到pmatch数组中。当regexec()函数成功返回时,从string+pmatch[0].rm_so到string+pmatch[0].rm_eo是第一个匹配的字符串,而从string+pmatch[1].rm_so到string+pmatch[1].rm_eo,则是第二个匹配的字符串,依此类推。

  释放正则表达式

  无论什么时候,当不再需要已经编译过的正则表达式时,都应该调用函数regfree()将其释放,以免产生内存泄漏。

void regfree(regex_t *preg);

  函数regfree()不会返回任何结果,它仅接收一个指向regex_t数据类型的指针,这是之前调用regcomp()函数所得到的编译结果。

  如果在程序中针对同一个regex_t结构调用了多次regcomp()函数,POSIX标准并没有规定是否每次都必须调用regfree()函数进行释放,但建议每次调用regcomp()函数对正则表达式进行编译后都调用一次regfree()函数,以尽早释放占用的存储空间。

  报告错误信息

  如果调用函数regcomp()或regexec()得到的是一个非0的返回值,则表明在对正则表达式的处理过程中出现了某种错误,此时可以通过调用函数regerror()得到详细的错误信息。

size_t regerror(int errcode,
const regex_t *preg, char *errbuf,
size_t errbuf_size);

  参数errcode是来自函数regcomp()或regexec()的错误代码,而参数preg则是由函数regcomp()得到的编译结果,其目的是把格式化消息所必须的上下文提供给regerror()函数。在执行函数regerror()时,将按照参数errbuf_size指明的最大字节数,在errbuf缓冲区中填入格式化后的错误信息,同时返回错误信息的长度。

  应用正则表达式

  最后给出一个具体的实例,介绍如何在C语言程序中处理正则表达式。

#include <stdio.h>
#include <sys/types.h>
#include <regex.h>
/* 取子串的函数 */
static char* substr(const char*str,
unsigned start, unsigned end)
{
unsigned n = end - start;
static char stbuf[256];
strncpy(stbuf, str + start, n);
stbuf[n] = 0;
return stbuf;
}
/* 主程序 */
int main(int argc, char** argv)
{
char * pattern;
int x, z, lno = 0, cflags = 0;
char ebuf[128], lbuf[256];
regex_t reg;
regmatch_t pm[10];
const size_t nmatch = 10;
/* 编译正则表达式*/
pattern = argv[1];
z = regcomp(?, pattern, cflags);
if (z != 0){
regerror(z, ?, ebuf, sizeof(ebuf));
fprintf(stderr, "%s: pattern '%s'
",
ebuf, pattern);
return 1;
}
/* 逐行处理输入的数据 */
while(fgets(lbuf, sizeof(lbuf), stdin))
{
++lno;
if ((z = strlen(lbuf)) > 0 &&amp; lbuf[z-1]
== '
')
lbuf[z - 1] = 0;
/* 对每一行应用正则表达式进行匹配 */
z = regexec(?, lbuf, nmatch, pm, 0);
if (z == REG_NOMATCH) continue;
else if (z != 0) {
regerror(z, ?, ebuf, sizeof(ebuf));
fprintf(stderr, "%s: regcom('%s')
",
ebuf, lbuf);
return 2;
}
/* 输出处理结果 */
for (x = 0; x < nmatch && pm[x].rm_so != -1; ++ x)
{
if (!x) printf("%04d: %s
", lno, lbuf);
printf(" $%d='%s'
", x, substr(lbuf, pm[x].rm_so,
pm[x].rm_eo));
}
}
/* 释放正则表达式 */
regfree(?);
return 0;
}

  上述程序负责从命令行获取正则表达式,然后将其运用于从标准输入得到的每行数据,并打印出匹配结果。执行下面的命令可以编译并执行该程序:

# gcc regexp.c -o regexp
# ./regexp 'regex[a-z]*' < regexp.c
0003: #include <regex.h>
$0='regex'
0027: regex_t reg;
$0='regex'
0054: z = regexec(?, lbuf, nmatch, pm, 0);
$0='regexec'

  小结

  对那些需要进行复杂数据处理的程序来说,正则表达式无疑是一个非常有用的工具。本文重点在于阐述如何在C语言中利用正则表达式来简化字符串处理,以便在数据处理方面能够获得与Perl语言类似的灵活性。

  本例中四次输出了a,b的值,但由于格式控制串不同,输出的结果也不相同。第四行的输出语句格式控制串中,两格式串%d 之间加了一个空格(非格式字符),所以输出的a,b值之间有一个空格。第五行的printf语句格式控制串中加入的是非格式字符逗号, 因此输出的a,b值之间加了一个逗号。第六行的格式串要求按字符型输出 a,b值。第七行中为了提示输出结果又增加了非格式字符串。

  赋值语句

  赋值语句是由赋值表达式再加上分号构成的表达式语句。 其一般形式为: 变量=表达式; 赋值语句的功能和特点都与赋值表达式相同。 它是程序中使用最多的语句之一。 在赋值语句的使用中需要注意以下几点:

  1、由于在赋值符“=”右边的表达式也可以又是一个赋值表达式,因此,下述形式 变量=(变量=表达式); 是成立的,从而形成嵌套的情形。其展开之后的一般形式为: 变量=变量=…=表达式;

  例如:

a=b=c=d=e=5;
按照赋值运算符的右接合性,
因此实际上等效于:
e=5;
d=e;
c=d;
b=c;
a=b;

  2、注意在变量说明中给变量赋初值和赋值语句的区别。给变量赋初值是变量说明的一部分,赋初值后的变量与其后的其它同类变量之间仍必须用逗号间隔,而赋值语句则必须用分号结尾。

  3、在变量说明中,不允许连续给多个变量赋初值。 如下述说明是错误的:

int a=b=c=5

  必须写为

int a=5,b=5,c=5;

  而赋值语句允许连续赋值

  4、注意赋值表达式和赋值语句的区别。赋值表达式是一种表达式,它可以出现在任何允许表达式出现的地方,而赋值语句则不能。下述语句是合法的:

if((x=y+5)>0) z=x;

  语句的功能是,若表达式x=y+5大于0则z=x。下述语句是非法的:

if((x=y+5;)>0) z=x;

  因为=y+5;是语句,不能出现在表达式中。

  数据输出语句

  本文介绍的是向标准输出设备显示器输出数据的语句。在C语言中,所有的数据输入/输出都是由库函数完成的。因此都是函数语句。

  本文先介绍printf函数和putchar函数。printf函数printf函数称为格式输出函数,其关键字最末一个字母f即为“格式”(format)之意。其功能是按用户指定的格式,把指定的数据显示到显示器屏幕上。在前面的例题中我们已多次使用过这个函数。

  一、printf函数调用的一般形式

  printf函数是一个标准库函数,它的函数原型在头文件“stdio.h”中。但作为一个特例,不要求在使用 printf 函数之前必须包含stdio.h文件。printf函数调用的一般形式为: printf(“格式控制字符串”,输出表列)其中格式控制字符串用于指定输出格式。

  格式控制串可由格式字符串和非格式字符串两种组成。格式字符串是以%开头的字符串,在%后面跟有各种格式字符,以说明输出数据的类型、形式、长度、小数位数等。如“%d”表示按十进制整型输出,“%ld”表示按十进制长整型输出,“%c”表示按字符型输出等。后面将专门给予讨论。

  非格式字符r在输出时原样照印,在显示中起提示作用。 输出表列中给出了各个输出项, 要求格式字符串和各输出项在数量和类型上应该一一对应。

void main()
{
int a=88,b=89;
printf("%d %d
",a,b);
printf("%d,%d
",a,b);
printf("%c,%c
",a,b);
printf("a=%d,b=%d",a,b);
}
a<--8,b<--89
printf("%d %d
",a,b);
printf("%d,%d
",a,b);
printf("%c,%c
",a,b);
printf("a=%d,b=%d",a,b);

  本例中四次输出了a,b的值,但由于格式控制串不同,输出的结果也不相同。第四行的输出语句格式控制串中,两格式串%d 之间加了一个空格(非格式字符),所以输出的a,b值之间有一个空格。第五行的printf语句格式控制串中加入的是非格式字符逗号, 因此输出的a,b值之间加了一个逗号。第六行的格式串要求按字符型输出 a,b值。第七行中为了提示输出结果又增加了非格式字符串。

  二、格式字符串

  在Turbo C中格式字符串的一般形式为: [标志][输出最小宽度][.精度][长度]类型 其中方括号[]中的项为可选项。各项的意义介绍如下:

  1.类型类型字符用以表示输出数据的类型,其格式符和意义下表所示:

表示输出类型的格式字符格式字符意义
d以十进制形式输出带符号整数(正数不输出符号)
o以八进制形式输出无符号整数(不输出前缀O)
x以十六进制形式输出无符号整数(不输出前缀OX)
u以十进制形式输出无符号整数
f以小数形式输出单、双精度实数
e以指数形式输出单、双精度实数
g以%f%e中较短的输出宽度输出单、双精度实数
c输出单个字符
s输出字符串

  2、标志

  标志字符为-、+、#、空格四种,其意义下表所示:

标志格式字符标 志 意 义
-结果左对齐,右边填空格
+输出符号(正号或负号)空格输出值为正时冠以空格, 为负时冠以负号
#对c,s,d,u类无影响;对o类,在输出时加前缀
o对x类,在输出时加前缀0x; 对e,g,f类当结果有小数时才给出小数点

  3、输出最小宽度

  用十进制整数来表示输出的最少位数。 若实际位数多于定义的宽度,则按实际位数输出, 若实际位数少于定义的宽度则补以空格或0。

  4、精度

  精度格式符以“.”开头,后跟十进制整数。本项的意义是:如果输出数字,则表示小数的位数;如果输出的是字符,则表示输出字符的个数;若实际位数大于所定义的精度数,则截去超过的部分。

  5.长度

  长度格式符为h,l两种,h表示按短整型量输出,l表示按长整型量输出。

void main()
{
int a=15;
float b=138.3576278;
double c=35648256.3645687;
char d='p';
printf("a=%d,%5d,%o,%x
",a,a,a,a);
printf("b=%f,%lf,%5.4lf,%e
",b,b,b,b);
printf("c=%lf,%f,%8.4lf
",c,c,c);
printf("d=%c,%8c
",d,d);
} a<--15
b<--138.3576278
c<--35648256.3645687
d<--'p' main()
{
int a=29;
float b=1243.2341;
double c=24212345.24232;
char c='h'
printf("a=%d,%5d,%o,%x
",a,a,a,a);
printf("b=%f,%lf,%5.4lf,%e
",b,b,b,b);
printf("c=%lf,%f,%8.4lf
",c,c,c);
printf("d=%c,%8c
",d,d);
}

  本例第七行中以四种格式输出整型变量a的值,其中“%5d”要求输出宽度为5,而a值为15只有两位故补三个空格。第八行中以四种格式输出实型量b的值。其中“%f”和“%lf”格式的输出相同,说明“l”符对“f”类型无影响。

  “%5.4lf”指定输出宽度为5,精度为4,由于实际长度超过5故应该按实际位数输出,小数位数超过4位部分被截去。第九行输出双精度实数,“%8.4lf”由于指定精度为4位故截去了超过4位的部分。第十行输出字符量d,其中“%bc”指定输出宽度为8故在输出字符p之前补加7个空格。

  使用printf函数时还要注意一个问题,那就是输出表列中的求值顺序。不同的编译系统不一定相同,可以从左到右,也可从右到左。Turbo C是按从右到左进行的。如把例2.13改笕缦率鲂问剑?/p>void main()
{
int i=8;
printf("%d
%d
%d
%d
%d
%d
",
++i,--i,i--,i++,-i--);
} i<--8

  这个程序与例2.13相比只是把多个printf语句改一个printf语句输出。但从结果可以看出是不同的。为什么结果会不同呢?就是因为printf函数对输出表中各量求值的顺序是自右至左进行的。在式中,先对最后一项“-i--”求值,结果为-8,然后i自减1后为7。再对“-i++”项求值得-7,然后i自增1后为8。

  再对“i--”项求值得8,然后i再自减1后为7。再求“i++”项得7,然后I再自增1后为8。再求“--i”项,i先自减1后输出,输出值为7。最后才求输出表列中的第一项“++i”,此时i自增1后输出8。但是必须注意,求值顺序虽是自右至左,但是输出顺序还是从左至右,因此得到的结果是上述输出结果。

  字符输出函数

  putchar 函数

  putchar 函数是字符输出函数, 其功能是在显示器上输出单个字符。其一般形式为: putchar(字符变量) 例如:

  putchar('A'); 输出大写字母A

  putchar(x); 输出字符变量x的值

  putchar(' '); 换行 对控制字符则执行控制功能,不在屏幕上显示。 使用本函数前必须要用文件包含命令:

#include<stdio.h>
#include <stdio.h>
void main(){
char a='B',b='o',c='k';
putchar(a);putchar(b);putchar(b);
putchar(c);putchar('  ');
putchar(a);putchar(b);
putchar('
');
putchar(b);putchar(c);
}

数据输入语句

  C语言的数据输入也是由函数语句完成的。本文介绍从标准输入设备—键盘上输入数据的函数scanf和getchar。

  scanf函数

  scanf函数称为格式输入函数,即按用户指定的格式从键盘上把数据输入到指定的变量之中。

  一、scanf函数的一般形式

  scanf函数是一个标准库函数,它的函数原型在头文件“stdio.h”中,与printf函数相同,C语言也允许在使用scanf函数之前不必包含stdio.h文件。scanf函数的一般形式为: scanf(“格式控制字符串”,地址表列);其中,格式控制字符串的作用与printf函数相同,但不能显示非格式字符串, 也就是不能显示提示字符串。

  地址表列中给出各变量的地址。地址是由地址运算符“&”后跟变量名组成的。例如,&a,&b分别表示变量a和变量b 的地址。这个地址就是编译系统在内存中给a,b变量分配的地址。在C语言中,使用了地址这个概念,这是与其它语言不同的。

  应该把变量的值和变量的地址这两个不同的概念区别开来。变量的地址是C编译系统分配的,用户不必关心具体的地址是多少。 变量的地址和变量值的关系如下: &a--->a567 a为变量名,567是变量的值,&a是变量a的地址。在赋值表达式中给变量赋值,如: a=567,在赋值号左边是变量名,不能写地址,而scanf函数在本质上也是给变量赋值,但要求写变量的地址,如&a。 这两者在形式上是不同的。&是一个取地址运算符,&a是一个表达式,其功能是求变量的地址。

void main()
{
int a,b,c;
printf("input a,b,c
");
scanf("%d%d%d",&a,&b,&c);
printf("a=%d,b=%d,c=%d",a,b,c);
}

  注意&的用法!

  在本例中,由于scanf函数本身不能显示提示串,故先用printf语句在屏幕上输出提示,请用户输入a、b、c的值。执行scanf语句,则退出TC屏幕进入用户屏幕等待用户输入。用户输入7、8、9后按下回车键,此时,系统又将返回TC屏幕。在scanf语句的格式串中由于没有非格式字符在“%d%d%d”之间作输入时的间隔,因此%输入时要用一个以上的空格或回车键作为每两个输入数之间的间隔。如:

7 8 9

  或

7
8
9

  格式字符串

  格式字符串的一般形式为: %[*][输入数据宽度][长度]类型 其中有方括号[]的项为任选项。各项的意义如下:

  1.类型

  表示输入数据的类型,其格式符和意义下表所示。

格式字符意义
d输入十进制整数
o输入八进制整数
x输入十六进制整数
u输入无符号十进制整数
f或e输入实型数(用小数形式或指数形式)
c输入单个字符
s输入字符串

  2、“*”符

  用以表示该输入项读入后蟾秤柘嘤Φ谋淞浚即跳过该输入值?如 scanf("%d %*d %d",&a,&b);当输入为:1 2 3 时,把1赋予a,2被跳过,3赋予b。

  3、宽度

  用十进制整数指定输入的宽度(即字符数)。例如: scanf("%5d",&a);

  输入:

  12345678

  只把12345赋予变量a,其余部分被截去。又如: scanf("%4d%4d",&a,&b);

  输入:

  12345678将把1234赋予a,而把5678赋予b。

  4、长度

  长度格式符为l和h,l表示输入长整型数据(如%ld)和双精度浮点数(如%lf)。h表示输入短整型数据。使用scanf函数还必须注意以下几点:

  a. scanf函数中没有精度控制,如:

scanf("%5.2f",&a);

  是非法的。不能企图用此语句输入小数为2位的实数。

  b. scanf中要求给出变量地址,如给出变量名则会出错。如:

scanf("%d",a);

  是非法的,应改为scnaf("%d",&a);才是合法的。

  c. 在输入多个数值数据时,若格式控制串中没有非格式字符作输入数据之间的间隔则可用空格,TAB或回车作间隔。C编译在碰到空格,TAB,回车或非法数据(如对“%d”输入“12A”时,A即为非法数据)时即认为该数据结束。

  d. 在输入字符数据时,若格式控制串中无非格式字符,则认为所有输入的字符均为有效字符。例如:

scanf("%c%c%c",&a,&b,&c);

  输入为:

  d e f

  则把'd'赋予a, 'f'赋予b,'e'赋予c。只有当输入为:

  def

  时,才能把'd'赋于a,'e'赋予b,'f'赋予c。 如果在格式控制中加入空格作为间隔,如 scanf ("%c %c %c",&a,&b,&c);则输入时各数据之间可加空格。

void main()
{
char a,b;
printf("input character a,b
");
scanf("%c%c",&a,&b);
printf("%c%c
",a,b);
}
scanf("'C14F14%c%c",&a,&b);
printf("%c%c
",a,b);

  由于scanf函数"%c%c"中没有空格,输入M N,结果输出只有M。而输入改为MN时则可输出MN两字符,见下面的输入运行情况:

input character a,b
MN
MN
void main()
{
char a,b;
printf("input character a,b
");
scanf("%c %c",&a,&b);
printf("
%c%c
",a,b);
}
scanf("%c %c",&a,&b);

  本例表示scanf格式控制串"%c %c"之间有空格时, 输入的数据之间可以有空格间隔。e. 如果格式控制串中有非格式字符则输入时也要输入该非格式字符。

  例如:

scanf("%d,%d,%d",&a,&b,&c);

  其中用非格式符“ , ”作间隔符,故输入时应为: 5,6,7

  又如:

scanf("a=%d,b=%d,c=%d",&a,&b,&c);

  则输入应为

  a=5,b=6,c=7g. 如输入的数据与输出的类型不一致时,虽然编译能够通过,但结果将不正确。

void main(){
int a;
printf("input a number
");
scanf("%d",&a);
printf("%ld",a);
}

  由于输入数据类型为整型, 而输出语句的格式串中说明为长整型,因此输出结果和输入数据不符。如改动程序如下:

void main()
{
long a;
printf("input a long integer
");
scanf("%ld",&a);
printf("%ld",a);
}

  运行结果为:

input a long integer
1234567890
1234567890

  当输入数据改为长整型后,输入输出数据相等。

  键盘输入函数

  getchar函数getchar函数的功能是从键盘上输入一个字符。其一般形式为: getchar(); 通常把输入的字符赋予一个字符变量,构成赋值语句,如:

char c;
c=getchar();#include<stdio.h>
void main(){
char c;
printf("input a character
");
c=getchar();
putchar(c);
}

  使用getchar函数还应注意几个问题:

  1.getchar函数只能接受单个字符,输入数字也按字符处理。输入多于一个字符时,只接收第一个字符。

  2.使用本函数前必须包含文件“stdio.h”。

  3.在TC屏幕下运行含本函数程序时,将退出TC 屏幕进入用*屏幕等待用户输入。输入完毕再返回TC屏幕。

void main(){
char a,b,c;
printf("input character a,b,c
");
scanf("%c %c %c",&a,&b,&c);
printf("%d,%d,%d
%c,%c,%c
",a,b,c,a-32,b-32,c-32);
}

  输入三个小写字母

  输出其ASCII码和对应的大写字母。

void main()
{
int a;
long b;
float f;
double d;
char c;
printf("%d,%d,%d,%d,%d",sizeof(a),
sizeof(b),sizeof(f)
,sizeof(d),sizeof(c));
}

  输出各种数据类型的字节长度。

其它资源
来源声明

版权与免责声明
1、本站所发布的文章仅供技术交流参考,本站不主张将其做为决策的依据,浏览者可自愿选择采信与否,本站不对因采信这些信息所产生的任何问题负责。
2、本站部分文章来源于网络,其版权为原权利人所有。由于来源之故,有的文章未能获得作者姓名,署“未知”或“佚名”。对于这些文章,有知悉作者姓名的请告知本站,以便及时署名。如果作者要求删除,我们将予以删除。除此之外本站不再承担其它责任。
3、本站部分文章来源于本站原创,本站拥有所有权利。
4、如对本站发布的信息有异议,请联系我们,经本站确认后,将在三个工作日内做出修改或删除处理。
请参阅权责声明