以下是Debian Hadoop与Pig的使用技巧:
/usr/local/hadoop。编辑~/.bashrc文件,添加Hadoop环境变量,再编辑hadoop-env.sh等配置文件,设置如JAVA_HOME、fs.defaultFS等参数,最后格式化HDFS并启动集群。hadoop-env.sh中调整JVM参数,如-Xmx和-Xms。在hdfs-site.xml中合理设置dfs.replication等参数,在yarn-site.xml和mapred-site.xml中配置资源分配和任务调度相关参数。pig -x local,适合小数据集测试;集群模式用pig或pig -x mapreduce,用于大数据集处理。LOAD命令加载数据,FILTER过滤,GROUP分组,FOREACH对分组数据操作,STORE存储结果。例如:A = LOAD 'input.txt' USING PigStorage(',') AS (name:chararray, age:int); B = FILTER A BY age > 18; STORE B INTO 'output' USING PigStorage(',');。