Skip to content

Projeto de Sistemas Distribuídos da Universidade Católica de Pernambuco com utilização de Hadoop e Tweepy.

Notifications You must be signed in to change notification settings

Mirajenni/TwitterMapReduce

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

13 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

TwitterMapReduce

Projeto de Sistemas Distribuídos da Universidade Católica de Pernambuco utilizando Hadoop e Tweepy.
O projeto foi adaptado de uma busca com o Tweepy

Utilizei Hadoop 2.10 e Python 3

COLOQUE UMA API_KEY AO CRIAR ACESSO NO TWITTER DEVELOPER

Como inicializar o Hadoop e fazer o MapReduce:
Abre o prompt como ADM
cd C:\Users\Jenni\Desktop\rabbitmq\twitter_search (para o diretório do seu arquivo)
start-all.cmd

hadoop fs -mkdir /input_dir
hadoop fs -put C:/Users/Jenni/Desktop/rabbitmq/Twitter_search/input.txt /input_dir
hadoop fs -ls /input_dir/
hadoop dfs -cat /input_dir/input.txt

roda o mapreduce (FUNCIONA):
hadoop jar c:/hadoop/share/hadoop/tools/lib/hadoop-streaming-2.10.0.jar -file mapper.py -mapper "python mapper.py" -file reducer.py -reducer "python reducer.py" -input /in/input.txt -output /output

ver o que gerou
hadoop dfs -cat /output_dir/*

remove arquivo do HDFS
hadoop fs -rm -r /input_dir/input.txt

deleta o diretório input do HDFS
hadoop fs -rm -r /input_dir

para os servidores yarn e dfs
stop-all.cmd

sair do safemode
hadoop dfsadmin –safemode leave

About

Projeto de Sistemas Distribuídos da Universidade Católica de Pernambuco com utilização de Hadoop e Tweepy.

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages