曲径通幽论坛

 找回密码
 立即注册
搜索
查看: 3572|回复: 0
打印 上一主题 下一主题

使用 lynx 提取七星彩

[复制链接]

4917

主题

5879

帖子

3万

积分

GROAD

曲径通幽,安觅芳踪。

Rank: 6Rank: 6

积分
34382
跳转到指定楼层
楼主
发表于 2012-4-9 13:47:40 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
lynx 是一个基于命令行的浏览器。我们很多时候在提取网页内容时,可能使用的方法是使用 wget 或 curl 先将网页另存为到本地,然后分析网页源码,最后过滤掉 HTML 标签及其它无用的信息。然而,如果利用 lynx 的 -dump 功能,那么将省去分析网页源码的步骤,大大简化了工作。

下面的例子是从中国体彩网的七星彩的历史数据中提取一个页面的七星彩数字中的前 4 个,为什么是前 4 个数字?因为海南人民写的私彩都是用这 4 个数字的 :)

下面是实现命令:
lynx -dump http://www.lottery.gov.cn/lottery/qxc/History.aspx |grep -E '[0-9]{5} [0-9] .*\[[0-9]+.gif\]' |awk '{print $2$3$4$5}'
5221
4465
6001
7747
0932
... ...
0054
6939
2675
4831

由此可见,处理过程相当简单,完全不必要再去过滤 HTML 标签了。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|曲径通幽 ( 琼ICP备11001422号-1|公安备案:46900502000207 )

GMT+8, 2024-5-15 21:28 , Processed in 0.076952 second(s), 23 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表