|
当使用论坛的所见即所得模式转帖某些网站的帖子时,往往会带有许多外链,比如下图所示的:
如上红色下划线所示。
如果考虑用 grep 和 sed 过滤,应该是有些困难的。因为 sed 主要是针对行过滤的,如果一个行里包含了许多要替换的元素,那么就有些麻烦了;而 grep 可以按照正则提取,但是替换却又不是他主要关心的。
用 perl 则很轻松的实现这个功能,如下代码所示可以过滤掉上面的 url 标签,但保留标签中的内容,比如“键盘”和 img 标签中的内容:
[code=perl]#!/usr/bin/perl
$file = "pcpop.txt";
open (TEMP, "<pcpop.txt") or die "Can't open $file:$!\n";
while (<TEMP>) {
s/\[url=(.*?)\.html\](.*?)\[\/url\]/\2/g;
print;
}
close TEMP;[/mw_shl_code]
在上面的代码中,pcpop.txt 保存了要过滤的帖子内容。open() 函数建立一个打开 pcpop.txt 文件的句柄,'<' 符号表示以读取方式打开文件。代码中关键就是 while 里面的正则,该正则是比较容易理解的,即去掉 url 左右两标签,而保留被添加标签的内容,正则中的 g 和 sed 里的一样,表示全局替换。
更方面的是,可以用 perl 命令直接执行下面的语句:/usr/bin/perl -p -i -e "s/\[url=(.*?)\.html\](.*?)\[\/url\]/\2/g;" pcpop.txt
在上面命令中,
-e 选项表示后接命令,如上面的正则表达式。
-i 选项和 sed 中的 -i 意思类似,表示将作用结果直接写入文件。 |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
|