抬头看路,低头干活


  • 首页

  • 关于

  • 标签

  • 归档

pig使用笔记

发表于 2017-12-19 |

1. 安装Pig

将pig添加到环境变量当中

2. pig使用

首先将数据库中的数据导入到HDFS上

sqoop import --connect jdbc:mysql://192.168.1.10:3306/yun --username root --password 123  --table trade_detail --target-dir '/sqoop/td'
sqoop import --connect jdbc:mysql://192.168.1.10:3306/yun --username root --password 123  --table user_info --target-dir '/sqoop/ui'
阅读全文 »

sqoop-export

发表于 2017-12-16 |

数据导出工具export

export工具,是将HDFS平台的数据,导出到外部的结构化存储系统中,可能会为一些应用系统提供数据支持。我们看一下export工具的基本选项及其含义,如下表所示

选项 含义说明
–validate <class-name> 启用数据副本验证功能,仅支持单表拷贝,可以指定验证使用的实现类
–validation-threshold <class-name> 指定验证门限所使用的类
–direct 使用直接导出模式(优化速度)
–export-dir <dir> 导出过程中HDFS源路径
-m,–num-mappers <n> 使用n个map任务并行导出
–table <table-name> 导出的目的表名称
–call <stored-proc-name> 导出数据调用的指定存储过程名
–update-key <col-name> 更新参考的列名称,多个列名使用逗号分隔
–update-mode <mode> 指定更新策略,包括:updateonly(默认)、allowinsert
–input-null-string <null-string> 使用指定字符串,替换字符串类型值为null的列
–input-null-non-string <null-string> 使用指定字符串,替换非字符串类型值为null的列
–staging-table <staging-table-name> 在数据导出到数据库之前,数据临时存放的表名称
–clear-staging-table 清除工作区中临时存放的数据
–batch 使用批量模式导出
阅读全文 »

Sqoop-1.4.4工具import和export使用详解

发表于 2017-12-12 |

Sqoop-1.4.4工具import和export使用详解

Sqoop可以在HDFS/Hive和关系型数据库之间进行数据的导入导出,其中主要使用了import和export这两个工具。这两个工具非常强大,提供了很多选项帮助我们完成数据的迁移和同步。比如,下面两个潜在的需求:

  1. 业务数据存放在关系数据库中,如果数据量达到一定规模后需要对其进行分析或同统计,单纯使用关系数据库可能会成为瓶颈,这时可以将数据从业务数据库数据导入(import)到Hadoop平台进行离线分析。

  2. 对大规模的数据在Hadoop平台上进行分析以后,可能需要将结果同步到关系数据库中作为业务的辅助数据,这时候需要将Hadoop平台分析后的数据导出(export)到关系数据库。

这里,我们介绍Sqoop完成上述基本应用场景所使用的import和export工具,通过一些简单的例子来说明这两个工具是如何做到的。
工具通用选项,import和export工具有些通用的选项,如下表所示:

阅读全文 »

linux下的日期时间

发表于 2017-12-11 |

用date更新时间与本机一致,使用ntpdate这个命令

先安装
yum install -y ntp
然后执行就可以了
ntpdate time.windows.com

打印六位的年月日

date +%y%m%d
150904
阅读全文 »

sqoop安装使用

发表于 2017-12-10 |

sqoop安装,安装在一台节点上就可以了。

  1. 上传sqoop

  2. 安装和配置
    在添加sqoop到环境变量
    将数据库连接驱动拷贝到$SQOOP_HOME/lib里

  3. 使用
    第一类:数据库中的数据导入到HDFS上

    sqoop import --connect jdbc:mysql://192.168.1.10:3306/hadoop --username root --password 123  --table trade_detail --columns 'id, account, income, expenses'
    
    指定输出路径、指定数据分隔符
    sqoop import --connect jdbc:mysql://192.168.1.10:3306/hadoop --username root --password 123  --table trade_detail --target-dir '/sqoop/td' --fields-terminated-by '\t'
    
    指定Map数量 -m 
    sqoop import --connect jdbc:mysql://192.168.1.10:3306/hadoop --username root --password 123  --table trade_detail --target-dir '/sqoop/td1' --fields-terminated-by '\t' -m 2
    
    增加where条件, 注意:条件必须用引号引起来
    sqoop import --connect jdbc:mysql://192.168.1.10:3306/hadoop --username root --password 123  --table trade_detail --where 'id>3' --target-dir '/sqoop/td2' 
    
    阅读全文 »

hive UDF 的使用

发表于 2017-12-10 |

首先要继承org.apache.hadoop.hive.ql.exec.UDF类实现 evaluate

自定义函数调用过程:

  1. 添加jar包(在hive命令行里面执行)

    hive> add jar /root/NUDF.jar;

  2. 创建临时函数

    hive> create temporary function getNation as 'com.hw.hive.udf.NationUDF';

    阅读全文 »

lucene笔记

发表于 2017-12-01 |

Alt text

什么是全文检索

  全文检索是计算机程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置。当用户查询时根据建立的索引查找,类似于通过字典的检索字表查字的过程。
  全文检索(Full-Text Retrieval)是指以文本作为检索对象,找出含有指定词汇的文本。全面、准确和快速是衡量全文检索系统的关键指标。
关于全文检索

1、只处理文本
2、不处理语义
3、搜索时英文不区分大小写
4、结果列表有相关度排序

在信息检索工具中,全文检索是最具通用性和实用性的。

阅读全文 »

红楼梦语录

发表于 2017-11-30 |

Alt text

世人都晓神仙好,惟有功名忘不了!

古今将相在何方?荒冢一堆草没了。

世人都晓神仙好,只有金银忘不了!

终朝只恨聚无多,及到多时眼闭了。
阅读全文 »

忆已失去的兴趣爱好

发表于 2017-11-29 |

Alt text
童年
  在自己记事之前,懵懵懂懂的孩子,无忧无虑的成长着,兴许那时才是一生之中最快乐的日子。因为对事情不记得,所以没有那么的“烦恼”。而这段时间却是那么的短暂,还没来得及体会就从你身边走过。记事之后,身边多了很多玩伴,下学之后我们都会聚在一起玩耍。那时我们玩捉迷藏、扇地堡、弹琉珠、扇卡片。

阅读全文 »

linux运维安全

发表于 2017-11-27 |
  1. 账号以及密码一定要复杂,密码需要符合这些规范:字符大于10个;至少包含大小写以及数字;密码中不能包含账号,不能包含自己的姓名全拼,不能有自己的生日数字,不能有自己的电话号码;密码要定期更换;不能把密码保存在记事本等文档中要用专业的存密码的软件保存;

  2. 可以拿一台机器作为跳板机来登陆其他服务器,其他服务器做登陆ip限制

    /etc/shos.allow, /etc/hosts.deny
    
  3. 能使用密钥尽量避免使用密码登陆

    vim /etc/ssh/sshd_config  //PermitRootLogin without-password 改为 PermitRootLogin no
    
  4. 可以禁止root直接登陆服务器,只允许普通用户登录,普通用户su到root(PermitRootLogin no)

    vim /etc/ssh/sshd_config               
    chkconfig --list                               
    chkconfig nginx off
    
阅读全文 »
1234…9
Hanwen

Hanwen

公众号「WellDev」
后端•职场•思维

90 日志
1 分类
90 标签
RSS
GitHub Twitter FaceBook Weibo
© 2022 Hanwen
由 Hexo 强力驱动
|
主题 — NexT.Pisces v5.1.3