1、原始数据 员工数据 empno ename job mgr hiredate sal comm deptno loc 7499 allen salesman 7698 1981-02-20 160...
hadoop通过map/reduce统计tomcat日志统计请求类型
Hadoop 案例7-----日志分析:分析非结构化文件 1、需求: 根据tomcat日志计算url访问了情况,具体的url如下, 结果为:访问方式、URL、访问量 127.0.0.1 - - "GE...
hadoop中map/reduce数据求最大的K个值并排序
需求分析 #orderid,userid,payment,productid a.txt 1,9819,100,121 2,8918,2000,111 3,2813,1234,22 4,9100,10...
hadoop中map/reduce数据求最大最小值实战
数据准备 a.txt 102 10 39 109 200 11 3 90 28 b.txt 5 2 30 838 10005 结果预测 Max 10005 Min 2 map代码 pac...
hadoop中map/reduce数据求平均值实战
说明 对输入文件中数据进行就算学生平均成绩。输入文件中的每行内容均为一个学生的姓名和他相应的成绩,如果有多门学科,则每门学科为一个文件。对输入文件中数据进行就算学生平均成绩。输入文件中的每行内容均为一...
hadoop中map/reduce数据排序实战
需求描述 对输入文件中数据进行排序。输入文件中的每行内容均为一个数字,即一个数据。 要求在输出中每行有两个间隔的数字,其中,第一个代表原始数据在原始数据集中的位次,第二个代表原始数据。 ...
hadoop中map/reduce数据去重实战
说明 数据去重的最终目标是让原始数据中出现次数超过一次的数据在输出文件中只出现一次。我们自然而然会想到将同一个数据的所有记录都交给一台reduce机器, 无论这个数据出现多少次,只要在最终结果中输出一...
NoSQL的四大种类
NoSQL数据库在整个数据库领域的江湖地位已经不言而喻。在大数据时代,虽然RDBMS很优秀,但是面对快速增长的数据规模和日渐复杂的数据模型,RDBMS渐渐力不从心,无法应对很多数据库处理任务,这时No...
Nutch-Hadoop-MongoDB搭建分布式爬虫
一、实现目标 使用Nutch、Hadoop、MongoDB实现一个简单的分布式爬虫,在Hadoop上运行Nutch爬虫抓取网页,存储到MongoDB中。 二、实验环境 CentOS7 Linux x8...