博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
[pig] pig 基础使用
阅读量:6928 次
发布时间:2019-06-27

本文共 838 字,大约阅读时间需要 2 分钟。

1.pig运行模式

本地模式: pig -x local  

 直接访问本地磁盘

集群模式: pig  或者 pig -x mapreduce

2.pig latin 交互

帮助信息 help

上传本地文件到hdfs中

查看内容 cat 

 加载数据

grunt> A = load '/pig/input/a.data' using PigStorage('\t');  --加载文件,并用冒号’\t‘将数据分离为多个字段grunt> B = foreach A generate $0 as id; --将每一次迭代的第一个元祖数据作为idgrunt> dump B; 在命令行输出结果

 执行成功,如下展示:

 计算结果

 3. 小试牛刀

1)、加载学生信息

student = load '/pig/input/student.data' using PigStorage(',') as (id:long,name:chararray,class:int,state:int);

2)过滤 符合条件的数据

filterStudent= filter student by state==1;

3)展示每个班的学生

groupStudentByClass= group student by class parallel 2;

dump groupStudentByClass;

4)统计每个班的人数

groupclass= foreach groupStudentByClass generate $0 as sid,COUNT($1) as total;

dump groupclass;

5)join

studentTeacher = join student by class,teacher by clazz;

dump studentTeacher;

参考资料:

http://pig.apache.org/docs/r0.16.0/start.html

<pig编程指南>

转载地址:http://wahcl.baihongyu.com/

你可能感兴趣的文章
openssh之 openssh.spec
查看>>
2017-2-24
查看>>
糖尿病威胁正日益增重
查看>>
文件压缩、解压缩、归档以及链接
查看>>
gitlab 各个角色的权限设置
查看>>
网络安全课程笔记 第0章
查看>>
Solaris 10 x86系统上添加新硬盘
查看>>
我的友情链接
查看>>
Web服务器测试和监控工具及组件介绍
查看>>
搭理AD域控服务器
查看>>
FTP HA windows cluster
查看>>
BGP AS-PATH 正则表达式的理解
查看>>
【帧中继】EIGRP如何运行在帧中继网络
查看>>
赛门铁克NBU备份oracle慢的问题
查看>>
Linux下Socket 函数集(二)
查看>>
漫谈程序员系列:受刺激啦,开篇啦
查看>>
特效编辑器开发手记1——令人蛋疼菊紧的Cocos2d-x动态改变粒子数
查看>>
Java源码分析系列之ArrayList读后感
查看>>
安卓中的消息循环机制Handler及Looper详解
查看>>
练习命令
查看>>