过滤 bbs code 标签

beyes · 发表于 2012-7-15 20:04:54

当使用论坛的所见即所得模式转帖某些网站的帖子时，往往会带有许多外链，比如下图所示的：

如上红色下划线所示。

如果考虑用 grep 和 sed 过滤，应该是有些困难的。因为 sed 主要是针对行过滤的，如果一个行里包含了许多要替换的元素，那么就有些麻烦了；而 grep 可以按照正则提取，但是替换却又不是他主要关心的。

用 perl 则很轻松的实现这个功能，如下代码所示可以过滤掉上面的 url 标签，但保留标签中的内容，比如“键盘”和 img 标签中的内容：
[code=perl]#!/usr/bin/perl

      $file = "pcpop.txt";
      open (TEMP, "<pcpop.txt") or die "Can't open $file:$!\n";

      while (<TEMP>) {
               s/\[url=(.*?)\.html\](.*?)\[\/url\]/\2/g;
               print;
      }

      close TEMP;[/mw_shl_code]

在上面的代码中，pcpop.txt 保存了要过滤的帖子内容。open() 函数建立一个打开 pcpop.txt 文件的句柄，'<' 符号表示以读取方式打开文件。代码中关键就是 while 里面的正则，该正则是比较容易理解的，即去掉 url 左右两标签，而保留被添加标签的内容，正则中的 g 和 sed 里的一样，表示全局替换。

更方面的是，可以用 perl 命令直接执行下面的语句：

/usr/bin/perl -p -i -e "s/\[url=(.*?)\.html\](.*?)\[\/url\]/\2/g;" pcpop.txt

在上面命令中，
-e 选项表示后接命令，如上面的正则表达式。
-i 选项和 sed 中的 -i 意思类似，表示将作用结果直接写入文件。

		自动登录	找回密码
密码			立即注册

过滤 bbs code 标签

本帖子中包含更多资源