Data Analysis

hive, MySQL, sqoop, R wrap up 및 참조 url

jianna6 2014. 11. 29. 00:15


1. hive설치 및 mysql설치 및 연동


mysql 및 hive 설치는 이전포스터에 있다. 가장 삽질많이한곳.

이틀동안 막다른 곳에 있다가 결국 instance 새로 생성하고 차례대로해서 처음부터 다시하면서 성공함..


hive with mysql 설치 (가장 깔끔하게 잘설명되어있는곳.)

http://sidcode.tistory.com/217


hive, mysql 환경설정

http://o-m-i.tistory.com/148


[1004jonghee]Hive 메타스토어(MySQL) 구축

http://1004jonghee.tistory.com/14


hive with mysql 확인

이건 이전이후 포스터에서도 중복되겠지만, 사실 매번까먹는관계로..

$sudo serivce mysql restart
$mysql -uhive -p
mysql>show databases;
mysql>use hive;
mysql>show tables;
mysql>SELECT * FROM hive.TBLS;

그냥 hive에서 이러한 이름의 테이블을 만들었다는 것만 알수있고, mysql에서 hive table을 조작하거나 할 수는 없다....(개당황)


2. sqoop 설치


http://rainmaker0303.tistory.com/entry/Apache-Sqoop-%EC%84%A4%EC%B9%98

http://rainmaker0303.tistory.com/entry/Hive-to-MysqlSqoop-%EC%97%B0%EB%8F%99



sqoop명령어


http://hochul.net/blog/datacollector_apache_sqoop_from_rdbms2/


3. hive명령어


hive로 데이터 분석은 다 처리하였다. 
이유1. 일단 쿼리문이 몇개필요하고, 테이블도 몇개 만들어서 조인해야하지만 결과가 나오긴나온다.
이유2. R로 분석하려고 했으나 R에서는 mapreduce작업을 하려면 다른 모듈이 필요해보였다. 

4. R명령어


그래프 그리는 용도로 사용하였다. 그래프만 그리기에는 다른 기능들이 많아서 아쉬웠지만 mapreduce를 하기위해 또 모듈을 찾을 여유가 없었다. 


-R dataframe만들기

dataset <- data.frame( update = data[1], watt = sample( c(NA,1:(nrow(data)-1)))

-dataframe row크기 구하기

nrow(data)


-R 그래프 함수 : plot(), barplot()

barplot(성적$국어, main="성적그래프", xlab="학번", ylab="점수", border="red", col="green", density=coldens, names.arg=xname)

http://blog.naver.com/janetlee624/220046513708

http://blog.naver.com/easternsun/220191904466


-그 외 명령어

data(result1)

str(result1)

#처음 6개만 보여줌

head(result1)