曲径通幽论坛

标题: 使用 lynx 提取七星彩 [打印本页]

作者: beyes    时间: 2012-4-9 13:47
标题: 使用 lynx 提取七星彩
lynx 是一个基于命令行的浏览器。我们很多时候在提取网页内容时,可能使用的方法是使用 wget 或 curl 先将网页另存为到本地,然后分析网页源码,最后过滤掉 HTML 标签及其它无用的信息。然而,如果利用 lynx 的 -dump 功能,那么将省去分析网页源码的步骤,大大简化了工作。

下面的例子是从中国体彩网的七星彩的历史数据中提取一个页面的七星彩数字中的前 4 个,为什么是前 4 个数字?因为海南人民写的私彩都是用这 4 个数字的 :)

下面是实现命令:
lynx -dump http://www.lottery.gov.cn/lottery/qxc/History.aspx |grep -E '[0-9]{5} [0-9] .*\[[0-9]+.gif\]' |awk '{print $2$3$4$5}'
5221
4465
6001
7747
0932
... ...
0054
6939
2675
4831

由此可见,处理过程相当简单,完全不必要再去过滤 HTML 标签了。




欢迎光临 曲径通幽论坛 (http://www.groad.net/bbs/) Powered by Discuz! X3.2