Periodic hadoop jobs running (best practice)_问答_开发者

Periodic hadoop jobs running (best practice)

开发者 https://www.devze.com 2023-01-04 22:11 出处：网络

相关专题：cloud

Customers able to upload urls in any time to database and application should processes urls as soon as possible. So i need periodic hadoop jobs running or run hadoop job automatically from other application(any script identifies new links were added, generates data for hadoop job and runs job). For PHP or Python script, i could set up cronjob, but what is best practice for perio开发者_开发知识库dic hadoop jobs running (prepare data for hadoop, upload data, run hadoop job and move data back to database?

Take a look at Oozie, the new workflow system from Y!, which can run jobs based on different triggers. A good overflow is presented by Alejandro here: http://www.slideshare.net/ydn/5-oozie-hadoopsummit2010

If you want urls to be processed as soon as possible, you'll have them processed each at a time. My recommendation is to wait for some number of links (or MB of links, or for example 10 min, every day).
And batch process them (I do my processing daily, but that jobs takes few hours)