售前咨询
技术支持
渠道合作

真实IP对应区域-MRJob-Python数据分析(19)

1.1. 前言

由于我们这边没有使用 M/R join的方法来实现 IP对应的区域,我们是使用M/R结合Pandas来实现。

我们计算每日PV经过这四个步骤:

Mapper: 将以行数据解析成 key=real_ip value=1的形式

Shuffle: 通过Shuffle后的结果会生成以 key 的值排序的 value迭代器

结果如: real_ip [1, 1, 1 … 1, 1]

Reduce 1: 在这边我们计算出 real_ip 的访问量

输出如: None [sum([1, 1, 1 … 1, 1]), key]

Reduce 2:

  1. 初始化 area_ip pandas 数据
  2. 对sum([1, 1, 1 … 1, 1]) 进行排序并输出 TOP 100

输入如: 31943   140.205.127.2    浙江省杭州市

1.2. 代码

运行统计和输出结果

 

文章转载来自:ttlsa.com

上一篇:

下一篇:

相关文章