Россия
Рассмотрены возможности программных средств обработки больших объемов данных (Big Data). В центре внимания статьи находятся инструменты платформы Apache NiFi, входящие в набор Hadoop-инструментов для бизнес-экосистем. Подробно рассмотрены такие средства, как свободно распространяемый набор утилит и библиотек для разработки и выполнения распределенных программ (Hadoop Common), включающий в себя библиотеки управления системами файлов и сценарии по управлению распределённой обработкой данных и созданию инфраструктуры, необходимой для этой обработки. Рассмотрены инструменты платформы Apache NiFi, в том числе набор современных ETL-инструментов (Extract, Transform, Load) для разработки хранилища большого объема данных, а также основные понятия платформы Apache NiFi, спользующей концепцию «Flow Based Programming» (FBP). Произведена оценка эффективности параллельной обработки данных
программные средства, большие объемы данных, параллельная обработка данных, платформа Apache NiFi, ETL-инструменты, Hadoop-инструмены, бизнес-экосистема, концепция Flow Based Programming, дистрибутив Hortonworks Data Platform
1. Баканов В.И. Динамика потоковых вычислений. М.: Труды НИУ ВШЭ, 2021.
2. Лэм Чак. Hadoop в действии. ДМК Пресс, 2012.
3. Уайт Том. Hadoop. Подробное руководство. СПб.: Питер, 2013.
4. Vance Ashlee. Hadoop, a Free Software Program, Finds Uses Beyond Search. N.Y.: The New York Times, 2009.
5. Shvachko Konstantin. Apache Hadoop. Coriolis, 2011.
6. Sharp J.A. Data Flow Computing: Theory and Practice. Intellect Limited, 1992.
7. Carkci M. Dataflow and Reactive Programming Systems: A Practical Guide. CreateSpace Independent Publishing Platform, 2014.
8. Wesley M. Johnston, J.R. Paul Hanna, Richard J. Millar. Advances in Dataflow Programming Languages. N.Y. and London, 2015.
9. David Loshin. ETL (Extract, Transform, Load) // Business Intelligence and Analytics. Morgan Kaufmann, 2012.
10. David Haertzen. ETL Tools // Business Intelligence and Analytics. Technics Publications, 2012.
11. Ralph Kimball, Joe Caserta. The Data Warehouse ETL Toolkit: Practical Techniques for Extracting, Cleaning, Conforming, and Delivering Data. John Wiley & Sons, 2004.