译者序
译者序
《精通正则表达式 第3版》(即Mastering Regular Expression 3rd Edition)是一本好书。
我还记得,自己刚开始工作时,就遇到了关于正则表达式的问题(从此被逼上梁山):若从文本中抽取E-mail地址,还可以用字符串来查找(先定位到@,然后向两端查找),若要抽取URL,简单的文本查找就无能为力了。正当我一筹莫展之时,项目经理说:“可以用正则表达式,去网上找找资料吧。”抱着这根救命稻草,我搜索了之前只是听说过名字的正则表达式的资料,并打印了java.util.regex(开发用的Java)的文档来看。摸索了半天,我的感觉就是,这玩意儿,真神奇,真复杂,真好用。
此后,我用到正则表达式的地方越来越多,也越来越感觉到它的重要,然而使用起来感觉总是捉襟见肘。当时是夏天,北京非常热,我决定下班之后不再着急赶车回家,而是在公司安心看看技术文档,于是邂逅了这本Mastering Regular Expression。该书原文是相当通畅易懂的,看完全书大概花了我一周的业余时间,之后便如拨云见日,感觉别有洞天——原来正则表达式可以这样用,真是奇妙,真是令人拍案叫绝。
此后我运用正则表达式便不用再看什么资料了,充其量就是查查语言的具体文档,表达式的基本模型和思路,完全是在阅读本书时确立的。也正是因为细心阅读过本书,所以有时我能以正则表达式解决某些复杂的问题。我的朋友郝培强(Tinyfool,昵称Tiny)曾问过我这样一个正则表达式的问题:在Apache服务器的Rewrite规则中,要求以一个正则表达式匹配“除两个特定子域名之外的所有其他子域名”,其他人的办法都无法满足要求:要么只能匹配这两个特定的子域名,要么必须依赖程序分支才能进行判断。其实这个问题,是可以用一个正则表达式匹配的。事后,Tiny说,看来,会用正则的人很多,但真正懂得正则的人很少。现实情况也确实如..
目录
前言
第1章 正则表达式入门
解决实际问题
作为编程语言的正则表达式
以文件名做类比
以语言做类比
正则表达式的思维框架
对于有部分经验的读者
检索文本文件:Egrep
Egrep元字符
行的起始和结束
字符组
用点号匹配任意字符
多选结构
忽略大小写
单词分界符
小结
可选项元素
其他量词:重复出现
括号及反向引用
神奇的转义
基础知识拓展
语言的差异
正则表达式的目标
更多的例子
正则表达式术语汇总
改进现状
总结
一家之言
第2章 入门示例拓展
关于这些例子
Perl简单入门
使用正则表达式匹配文本
向实用的程序前进
成功匹配的副作用
错综复杂的正则表达式
暂停片刻
使用正则表达式修改文本
例子:公函生成程序
举例:修整股票价格
自动的编辑操作
处理邮件的小工具
用环视功能为数值添加逗号
Text-to-HTML转换
回到单词重复问题
第3章 正则表达式的特性和流派概览
在正则的世界中漫步
正则表达式的起源
最初印象
正则表达式的注意事项和处理方式
集成式处理
程序式处理和面向对象式处理
查找和替换
其他语言中的查找和替换
注意事项和处理方式:小结
字符串,字符编码和匹配模式
作为正则表达式的字符串
字符编码
Unicode
正则模式和匹配模式
常用的元字符和特性
字符表示法
字符组及相关结构
锚点及其他“零长度断言”
注释和模式量词
分组,捕获,条件判断和控制
高级话题引导
第4章:表达式的匹配原理
发动引擎
两类引擎
新的标准
正则引擎的分类
几句题外话
测试引擎的类型
匹配的基础
关于范例
规则1:优先选择最左端的匹配结果
引擎的构造
规则2:标准量词是匹配优先的
表达式主导与文本主导
NFA引擎:表达式主导
DFA引擎:文..