C语言程序设计入门系列之一-C/C++-学习资源,学习图书,电子图书-教学资源-e时空

当前位置：主页 - 电脑 - 程序设计 - C/C++

C语言程序设计入门系列之一

来源：网络作者：更新时间：2012-03-04

【收藏此页】【字号大中小】【打印】【关闭】

　　如果用户熟悉Linux下的sed、awk、grep或vi，那么对正则表达式这一概念肯定不会陌生。由于它可以极大地简化处理字符串时的复杂度，因此现在已经在许多Linux实用工具中得到了应用。千万不要以为正则表达式只是Perl、Python、Bash等脚本语言的专利，作为C语言程序员，用户同样可以在自己的程序中运用正则表达式。

　　标准的C和C++都不支持正则表达式，但有一些函数库可以辅助C/C++程序员完成这一功能，其中最著名的当数Philip Hazel的Perl-Compatible Regular Expression库，许多Linux发行版本都带有这个函数库。

　　编译正则表达式

　　为了提高效率，在将一个字符串与正则表达式进行比较之前，首先要用regcomp()函数对它进行编译，将其转化为regex_t结构：

int regcomp(regex_t *preg, const char *regex,
int cflags);

　　参数regex是一个字符串，它代表将要被编译的正则表达式；参数preg指向一个声明为regex_t的数据结构，用来保存编译结果；参数cflags决定了正则表达式该如何被处理的细节。

　　如果函数regcomp()执行成功，并且编译结果被正确填充到preg中后，函数将返回0，任何其它的返回结果都代表有某种错误产生。

　　匹配正则表达式

　　一旦用regcomp()函数成功地编译了正则表达式，接下来就可以调用regexec()函数完成模式匹配：

int regexec(const regex_t *preg,
const char *string, size_t nmatch,
regmatch_t pmatch[], int eflags);
typedef struct {
regoff_t rm_so;
regoff_t rm_eo;
} regmatch_t;

　　参数preg指向编译后的正则表达式，参数string是将要进行匹配的字符串，而参数nmatch和pmatch则用于把匹配结果返回给调用程序，最后一个参数eflags决定了匹配的细节。

　　在调用函数regexec()进行模式匹配的过程中，可能在字符串string中会有多处与给定的正则表达式相匹配，参数pmatch就是用来保存这些匹配位置的，而参数nmatch则告诉函数regexec()最多可以把多少个匹配结果填充到pmatch数组中。当regexec()函数成功返回时，从string+pmatch[0].rm_so到string+pmatch[0].rm_eo是第一个匹配的字符串，而从string+pmatch[1].rm_so到string+pmatch[1].rm_eo，则是第二个匹配的字符串，依此类推。

　　释放正则表达式

　　无论什么时候，当不再需要已经编译过的正则表达式时，都应该调用函数regfree()将其释放，以免产生内存泄漏。

void regfree(regex_t *preg);

　　函数regfree()不会返回任何结果，它仅接收一个指向regex_t数据类型的指针，这是之前调用regcomp()函数所得到的编译结果。

　　如果在程序中针对同一个regex_t结构调用了多次regcomp()函数，POSIX标准并没有规定是否每次都必须调用regfree()函数进行释放，但建议每次调用regcomp()函数对正则表达式进行编译后都调用一次regfree()函数，以尽早释放占用的存储空间。

　　报告错误信息

　　如果调用函数regcomp()或regexec()得到的是一个非0的返回值，则表明在对正则表达式的处理过程中出现了某种错误，此时可以通过调用函数regerror()得到详细的错误信息。

size_t regerror(int errcode,
const regex_t *preg, char *errbuf,
size_t errbuf_size);

　　参数errcode是来自函数regcomp()或regexec()的错误代码，而参数preg则是由函数regcomp()得到的编译结果，其目的是把格式化消息所必须的上下文提供给regerror()函数。在执行函数regerror()时，将按照参数errbuf_size指明的最大字节数，在errbuf缓冲区中填入格式化后的错误信息，同时返回错误信息的长度。

　　应用正则表达式

　　最后给出一个具体的实例，介绍如何在C语言程序中处理正则表达式。

#include <stdio.h>
#include <sys/types.h>
#include <regex.h>
/* 取子串的函数 */
static char* substr(const char*str,
unsigned start, unsigned end)
{
unsigned n = end - start;
static char stbuf[256];
strncpy(stbuf, str + start, n);
stbuf[n] = 0;
return stbuf;
}
/* 主程序 */
int main(int argc, char** argv)
{
char * pattern;
int x, z, lno = 0, cflags = 0;
char ebuf[128], lbuf[256];
regex_t reg;
regmatch_t pm[10];
const size_t nmatch = 10;
/* 编译正则表达式*/
pattern = argv[1];
z = regcomp(?, pattern, cflags);
if (z != 0){
regerror(z, ?, ebuf, sizeof(ebuf));
fprintf(stderr, "%s: pattern '%s'
",
ebuf, pattern);
return 1;
}
/* 逐行处理输入的数据 */
while(fgets(lbuf, sizeof(lbuf), stdin))
{
++lno;
if ((z = strlen(lbuf)) > 0 &&amp; lbuf[z-1]
== '
')
lbuf[z - 1] = 0;
/* 对每一行应用正则表达式进行匹配 */
z = regexec(?, lbuf, nmatch, pm, 0);
if (z == REG_NOMATCH) continue;
else if (z != 0) {
regerror(z, ?, ebuf, sizeof(ebuf));
fprintf(stderr, "%s: regcom('%s')
",
ebuf, lbuf);
return 2;
}
/* 输出处理结果 */
for (x = 0; x < nmatch && pm[x].rm_so != -1; ++ x)
{
if (!x) printf("%04d: %s
", lno, lbuf);
printf(" $%d='%s'
", x, substr(lbuf, pm[x].rm_so,
pm[x].rm_eo));
}
}
/* 释放正则表达式 */
regfree(?);
return 0;
}

　　上述程序负责从命令行获取正则表达式，然后将其运用于从标准输入得到的每行数据，并打印出匹配结果。执行下面的命令可以编译并执行该程序：

# gcc regexp.c -o regexp
# ./regexp 'regex[a-z]*' < regexp.c
0003: #include <regex.h>
$0='regex'
0027: regex_t reg;
$0='regex'
0054: z = regexec(?, lbuf, nmatch, pm, 0);
$0='regexec'

　　小结

　　对那些需要进行复杂数据处理的程序来说，正则表达式无疑是一个非常有用的工具。本文重点在于阐述如何在C语言中利用正则表达式来简化字符串处理，以便在数据处理方面能够获得与Perl语言类似的灵活性。

　　本例中四次输出了a,b的值，但由于格式控制串不同，输出的结果也不相同。第四行的输出语句格式控制串中，两格式串%d 之间加了一个空格(非格式字符)，所以输出的a,b值之间有一个空格。第五行的printf语句格式控制串中加入的是非格式字符逗号，因此输出的a,b值之间加了一个逗号。第六行的格式串要求按字符型输出 a,b值。第七行中为了提示输出结果又增加了非格式字符串。

　　赋值语句

　　赋值语句是由赋值表达式再加上分号构成的表达式语句。其一般形式为：变量=表达式; 赋值语句的功能和特点都与赋值表达式相同。它是程序中使用最多的语句之一。在赋值语句的使用中需要注意以下几点：

　　1、由于在赋值符“=”右边的表达式也可以又是一个赋值表达式，因此，下述形式变量=(变量=表达式); 是成立的，从而形成嵌套的情形。其展开之后的一般形式为：变量=变量=…=表达式;

　　例如：

a=b=c=d=e=5;
按照赋值运算符的右接合性，
因此实际上等效于：
e=5;
d=e;
c=d;
b=c;
a=b;

　　2、注意在变量说明中给变量赋初值和赋值语句的区别。给变量赋初值是变量说明的一部分，赋初值后的变量与其后的其它同类变量之间仍必须用逗号间隔，而赋值语句则必须用分号结尾。

　　3、在变量说明中，不允许连续给多个变量赋初值。如下述说明是错误的：

int a=b=c=5

　　必须写为

int a=5,b=5,c=5;

　　而赋值语句允许连续赋值

　　4、注意赋值表达式和赋值语句的区别。赋值表达式是一种表达式，它可以出现在任何允许表达式出现的地方，而赋值语句则不能。下述语句是合法的：

if((x=y+5)>0) z=x;

　　语句的功能是，若表达式x=y+5大于0则z=x。下述语句是非法的：

if((x=y+5;)>0) z=x;

　　因为=y+5;是语句，不能出现在表达式中。

　　数据输出语句

　　本文介绍的是向标准输出设备显示器输出数据的语句。在Ｃ语言中，所有的数据输入／输出都是由库函数完成的。因此都是函数语句。

　　本文先介绍printf函数和putchar函数。printf函数printf函数称为格式输出函数，其关键字最末一个字母f即为“格式”(format)之意。其功能是按用户指定的格式，把指定的数据显示到显示器屏幕上。在前面的例题中我们已多次使用过这个函数。

　　一、printf函数调用的一般形式

　　printf函数是一个标准库函数，它的函数原型在头文件“stdio.h”中。但作为一个特例，不要求在使用 printf 函数之前必须包含stdio.h文件。printf函数调用的一般形式为： printf(“格式控制字符串”，输出表列)其中格式控制字符串用于指定输出格式。

　　格式控制串可由格式字符串和非格式字符串两种组成。格式字符串是以%开头的字符串，在%后面跟有各种格式字符，以说明输出数据的类型、形式、长度、小数位数等。如“%d”表示按十进制整型输出，“%ld”表示按十进制长整型输出，“%c”表示按字符型输出等。后面将专门给予讨论。

　　非格式字符r在输出时原样照印，在显示中起提示作用。输出表列中给出了各个输出项，要求格式字符串和各输出项在数量和类型上应该一一对应。

void main()
{
int a=88,b=89;
printf("%d %d
",a,b);
printf("%d,%d
",a,b);
printf("%c,%c
",a,b);
printf("a=%d,b=%d",a,b);
}
a<--8,b<--89
printf("%d %d
",a,b);
printf("%d,%d
",a,b);
printf("%c,%c
",a,b);
printf("a=%d,b=%d",a,b);

　　二、格式字符串

　　在Turbo C中格式字符串的一般形式为： [标志][输出最小宽度][.精度][长度]类型其中方括号[]中的项为可选项。各项的意义介绍如下：

　　1.类型类型字符用以表示输出数据的类型，其格式符和意义下表所示：

表示输出类型的格式字符	格式字符意义
d	以十进制形式输出带符号整数(正数不输出符号)
o	以八进制形式输出无符号整数(不输出前缀O)
x	以十六进制形式输出无符号整数(不输出前缀OX)
u	以十进制形式输出无符号整数
f	以小数形式输出单、双精度实数
e	以指数形式输出单、双精度实数
g	以%f%e中较短的输出宽度输出单、双精度实数
c	输出单个字符
s	输出字符串

　　2、标志

　　标志字符为-、+、#、空格四种，其意义下表所示：

标志格式字符	标志意义
-	结果左对齐，右边填空格
+	输出符号(正号或负号)空格输出值为正时冠以空格，为负时冠以负号
#	对c，s，d，u类无影响；对o类，在输出时加前缀
o	对x类，在输出时加前缀0x；对e,g,f类当结果有小数时才给出小数点

　　3、输出最小宽度

　　用十进制整数来表示输出的最少位数。若实际位数多于定义的宽度，则按实际位数输出，若实际位数少于定义的宽度则补以空格或0。

　　4、精度

　　精度格式符以“.”开头，后跟十进制整数。本项的意义是：如果输出数字，则表示小数的位数；如果输出的是字符，则表示输出字符的个数；若实际位数大于所定义的精度数，则截去超过的部分。

　　5.长度

　　长度格式符为h,l两种，h表示按短整型量输出，l表示按长整型量输出。

void main()
{
int a=15;
float b=138.3576278;
double c=35648256.3645687;
char d='p';
printf("a=%d,%5d,%o,%x
",a,a,a,a);
printf("b=%f,%lf,%5.4lf,%e
",b,b,b,b);
printf("c=%lf,%f,%8.4lf
",c,c,c);
printf("d=%c,%8c
",d,d);
} a<--15
b<--138.3576278
c<--35648256.3645687
d<--'p' main()
{
int a=29;
float b=1243.2341;
double c=24212345.24232;
char c='h'
printf("a=%d,%5d,%o,%x
",a,a,a,a);
printf("b=%f,%lf,%5.4lf,%e
",b,b,b,b);
printf("c=%lf,%f,%8.4lf
",c,c,c);
printf("d=%c,%8c
",d,d);
}

　　本例第七行中以四种格式输出整型变量a的值，其中“%5d”要求输出宽度为5，而a值为15只有两位故补三个空格。第八行中以四种格式输出实型量b的值。其中“%f”和“%lf”格式的输出相同，说明“l”符对“f”类型无影响。

　　“%5.4lf”指定输出宽度为5，精度为4，由于实际长度超过5故应该按实际位数输出，小数位数超过4位部分被截去。第九行输出双精度实数，“%8.4lf”由于指定精度为4位故截去了超过4位的部分。第十行输出字符量d，其中“%bc”指定输出宽度为8故在输出字符p之前补加7个空格。

　　使用printf函数时还要注意一个问题，那就是输出表列中的求值顺序。不同的编译系统不一定相同，可以从左到右，也可从右到左。Turbo C是按从右到左进行的。如把例2.13改笕缦率鲂问剑?/p>void main() { int i=8; printf("%d %d %d %d %d %d ", ++i,--i,i--,i++,-i--); } i<--8

　　这个程序与例2.13相比只是把多个printf语句改一个printf语句输出。但从结果可以看出是不同的。为什么结果会不同呢?就是因为printf函数对输出表中各量求值的顺序是自右至左进行的。在式中，先对最后一项“-i--”求值，结果为-8,然后i自减1后为7。再对“-i++”项求值得-7，然后i自增1后为8。

　　再对“i--”项求值得8，然后i再自减1后为7。再求“i++”项得7，然后I再自增1后为8。再求“--i”项，i先自减1后输出，输出值为7。最后才求输出表列中的第一项“++i”，此时i自增1后输出8。但是必须注意，求值顺序虽是自右至左，但是输出顺序还是从左至右，因此得到的结果是上述输出结果。

　　字符输出函数

　　putchar 函数

　　putchar 函数是字符输出函数，其功能是在显示器上输出单个字符。其一般形式为： putchar(字符变量) 例如：

　　putchar('A'); 输出大写字母A

　　putchar(x); 输出字符变量x的值

　　putchar(' '); 换行对控制字符则执行控制功能，不在屏幕上显示。使用本函数前必须要用文件包含命令：

#include<stdio.h>
#include <stdio.h>
void main(){
char a='B',b='o',c='k';
putchar(a);putchar(b);putchar(b);
putchar(c);putchar('　　');
putchar(a);putchar(b);
putchar('
');
putchar(b);putchar(c);
}

数据输入语句

　　Ｃ语言的数据输入也是由函数语句完成的。本文介绍从标准输入设备—键盘上输入数据的函数scanf和getchar。

　　scanf函数

　　scanf函数称为格式输入函数，即按用户指定的格式从键盘上把数据输入到指定的变量之中。

　　一、scanf函数的一般形式

　　scanf函数是一个标准库函数，它的函数原型在头文件“stdio.h”中，与printf函数相同，Ｃ语言也允许在使用scanf函数之前不必包含stdio.h文件。scanf函数的一般形式为： scanf(“格式控制字符串”，地址表列);其中，格式控制字符串的作用与printf函数相同，但不能显示非格式字符串，也就是不能显示提示字符串。

　　地址表列中给出各变量的地址。地址是由地址运算符“&”后跟变量名组成的。例如，&a,&b分别表示变量a和变量b 的地址。这个地址就是编译系统在内存中给a,b变量分配的地址。在Ｃ语言中，使用了地址这个概念，这是与其它语言不同的。

　　应该把变量的值和变量的地址这两个不同的概念区别开来。变量的地址是C编译系统分配的，用户不必关心具体的地址是多少。变量的地址和变量值的关系如下： &a--->a567 a为变量名，567是变量的值，&a是变量a的地址。在赋值表达式中给变量赋值，如： a=567，在赋值号左边是变量名，不能写地址，而scanf函数在本质上也是给变量赋值，但要求写变量的地址，如&a。这两者在形式上是不同的。&是一个取地址运算符，&a是一个表达式，其功能是求变量的地址。

void main()
{
int a,b,c;
printf("input a,b,c
");
scanf("%d%d%d",&a,&b,&c);
printf("a=%d,b=%d,c=%d",a,b,c);
}

　　注意&的用法!

　　在本例中，由于scanf函数本身不能显示提示串，故先用printf语句在屏幕上输出提示，请用户输入a、b、c的值。执行scanf语句，则退出TC屏幕进入用户屏幕等待用户输入。用户输入7、8、9后按下回车键，此时，系统又将返回TC屏幕。在scanf语句的格式串中由于没有非格式字符在“%d%d%d”之间作输入时的间隔，因此%输入时要用一个以上的空格或回车键作为每两个输入数之间的间隔。如：

7 8 9

　　或

7
8
9

　　格式字符串

　　格式字符串的一般形式为： %[*][输入数据宽度][长度]类型其中有方括号[]的项为任选项。各项的意义如下：

　　1.类型

　　表示输入数据的类型，其格式符和意义下表所示。

格式	字符意义
d	输入十进制整数
o	输入八进制整数
x	输入十六进制整数
u	输入无符号十进制整数
f或e	输入实型数(用小数形式或指数形式)
c	输入单个字符
s	输入字符串

　　2、“*”符

　　用以表示该输入项读入后蟾秤柘嘤Φ谋淞浚即跳过该输入值?如 scanf("%d %*d %d",&a,&b);当输入为：1 2 3 时，把1赋予a，2被跳过，3赋予b。

　　3、宽度

　　用十进制整数指定输入的宽度(即字符数)。例如： scanf("%5d",&a);

　　输入：

　　12345678

　　只把12345赋予变量a，其余部分被截去。又如： scanf("%4d%4d",&a,&b);

　　输入：

　　12345678将把1234赋予a，而把5678赋予b。

　　4、长度

　　长度格式符为l和h，l表示输入长整型数据(如%ld)和双精度浮点数(如%lf)。h表示输入短整型数据。使用scanf函数还必须注意以下几点：

　　a. scanf函数中没有精度控制，如：

scanf("%5.2f",&a);

　　是非法的。不能企图用此语句输入小数为2位的实数。

　　b. scanf中要求给出变量地址，如给出变量名则会出错。如:

scanf("%d",a);

　　是非法的，应改为scnaf("%d",&a);才是合法的。

　　c. 在输入多个数值数据时，若格式控制串中没有非格式字符作输入数据之间的间隔则可用空格，TAB或回车作间隔。C编译在碰到空格，TAB，回车或非法数据(如对“%d”输入“12A”时，A即为非法数据)时即认为该数据结束。

　　d. 在输入字符数据时，若格式控制串中无非格式字符，则认为所有输入的字符均为有效字符。例如：

scanf("%c%c%c",&a,&b,&c);

　　输入为：

　　d e f

　　则把'd'赋予a, 'f'赋予b,'e'赋予c。只有当输入为：

　　def

　　时，才能把'd'赋于a,'e'赋予b,'f'赋予c。如果在格式控制中加入空格作为间隔，如 scanf ("%c %c %c",&a,&b,&c);则输入时各数据之间可加空格。

void main()
{
char a,b;
printf("input character a,b
");
scanf("%c%c",&a,&b);
printf("%c%c
",a,b);
}
scanf("'C14F14%c%c",&a,&b);
printf("%c%c
",a,b);

　　由于scanf函数"%c%c"中没有空格，输入M N，结果输出只有M。而输入改为MN时则可输出MN两字符，见下面的输入运行情况：

input character a,b
MN
MN
void main()
{
char a,b;
printf("input character a,b
");
scanf("%c %c",&a,&b);
printf("
%c%c
",a,b);
}
scanf("%c %c",&a,&b);

　　本例表示scanf格式控制串"%c %c"之间有空格时，输入的数据之间可以有空格间隔。e. 如果格式控制串中有非格式字符则输入时也要输入该非格式字符。

　　例如：

scanf("%d,%d,%d",&a,&b,&c);

　　其中用非格式符“ , ”作间隔符，故输入时应为： 5,6,7

　　又如：

scanf("a=%d,b=%d,c=%d",&a,&b,&c);

　　则输入应为

　　a=5,b=6,c=7g. 如输入的数据与输出的类型不一致时，虽然编译能够通过，但结果将不正确。

void main(){
int a;
printf("input a number
");
scanf("%d",&a);
printf("%ld",a);
}

　　由于输入数据类型为整型，而输出语句的格式串中说明为长整型，因此输出结果和输入数据不符。如改动程序如下：

void main()
{
long a;
printf("input a long integer
");
scanf("%ld",&a);
printf("%ld",a);
}

　　运行结果为：

input a long integer
1234567890
1234567890

　　当输入数据改为长整型后，输入输出数据相等。

　　键盘输入函数

　　getchar函数getchar函数的功能是从键盘上输入一个字符。其一般形式为： getchar(); 通常把输入的字符赋予一个字符变量，构成赋值语句，如：

char c;
c=getchar();#include<stdio.h>
void main(){
char c;
printf("input a character
");
c=getchar();
putchar(c);
}

　　使用getchar函数还应注意几个问题：

　　1.getchar函数只能接受单个字符，输入数字也按字符处理。输入多于一个字符时，只接收第一个字符。

　　2.使用本函数前必须包含文件“stdio.h”。

　　3.在TC屏幕下运行含本函数程序时，将退出TC 屏幕进入用*屏幕等待用户输入。输入完毕再返回TC屏幕。

void main(){
char a,b,c;
printf("input character a,b,c
");
scanf("%c %c %c",&a,&b,&c);
printf("%d,%d,%d
%c,%c,%c
",a,b,c,a-32,b-32,c-32);
}

　　输入三个小写字母

　　输出其ASCII码和对应的大写字母。

void main()
{
int a;
long b;
float f;
double d;
char c;
printf("%d,%d,%d,%d,%d",sizeof(a),
sizeof(b),sizeof(f)
,sizeof(d),sizeof(c));
}

　　输出各种数据类型的字节长度。

其它资源

本类热门

热门排行

来源声明

版权与免责声明
1、本站所发布的文章仅供技术交流参考，本站不主张将其做为决策的依据，浏览者可自愿选择采信与否，本站不对因采信这些信息所产生的任何问题负责。
2、本站部分文章来源于网络，其版权为原权利人所有。由于来源之故，有的文章未能获得作者姓名，署“未知”或“佚名”。对于这些文章，有知悉作者姓名的请告知本站，以便及时署名。如果作者要求删除，我们将予以删除。除此之外本站不再承担其它责任。
3、本站部分文章来源于本站原创，本站拥有所有权利。
4、如对本站发布的信息有异议，请联系我们，经本站确认后，将在三个工作日内做出修改或删除处理。
请参阅权责声明！