Бугайов О. С. Огляд екосистеми Hadoop // Міжнародний науковий журнал "Інтернаука". — 2017. — №10.
Технічні науки
УДК 004.4
Бугайов Олександр Сергійович
студент
Національного технічного університету України
«Київський політехнічний інститут імені Ігоря Сікорського»
Бугаев Александр Сергеевич
студент
Национального технического университета Украины
«Киевский политехнический институт имени Игоря Сикорского»
Buhaiov Oleksandr
student of the
National technical university of Ukraine
«Igor Sikorsky Kyiv Polytechnic Institute»
ОГЛЯД ЕКОСИСТЕМИ HADOOP
ОБЗОР ЭКОСИСТЕМЫ HADOOP
HADOOP ECOSYSTEM REWIEW
Анотація: Розглянута програмна платформа для роботи з великими обсягами даних Hadoop та технології для інтеграції з нею, що використовуються для вирішення різноманітних дослідницьких задач.
Ключові слова: Big Data, Hadoop, дані.
Аннотация: Рассмотрена программная платформа для работы с большими объемами данных Hadoop и технологии для интеграции с ней, которые используются для решения различных исследовательских задач.
Ключевые слова: Big Data, Hadoop, данные.
Summary: Program platform for work with Big Data – Hadoop is reviewed with technologies for integration with it, which can be applied for resolving different research tasks.
Key words: Big Data, Hadoop, data.
Вступ. Оскільки різноманітність і обсяг даних, накопичених компаніями, продовжує зростати значними темпами, то також зростає і популярність Hadoop. Це обумовлено тим, що ця платформа дає змогу зберігати та обробляти величезні обсяги неструктурованих даних через не надто вартісне обладнання.
Основи Hadoop. Існує дві першочергові речі, які потрібно знати про Hadoop. По-перше, Розподілена файлова система Hadoop (HDFS) дозволяє зберігати файли надвеликого об’єму – таблиці з мільярдами записів, що розміщуються на десятках (а в деяких випадках – тисячах) дешевих серверах. До того ж, він може бути використаний безліч різноманітних файлів таким самим чином. Це пояснює, чому HDFS використовують компанії, що працюють з найбільшими у світі наборами даних - Facebook, Google, IBM. По-друге, парадигма MapReduce – це алгоритм Hadoop обробки та аналізу великих об’ємів даних, якими керує HDFS. MapReduce перевертає традиційний принцип аналізу даних. Замість того щоб збирати дані з десятків чи сотень серверів та передавати їх через мережу, MapReduce переміщає програмне забезпечення до даних, виконуючи певні обчислення паралельно. Ці два компонента разом зробили Hadoop одним з найпоширеніших інструментів для BigData, що використовують як великі компанії так і стартапи. Популярність Hadoop обумовлена наявність великої кількості ПЗ, яке допомагає значно розширити базові можливості Hadoop, та утворює цілу екосистему навколо нього.
Вдосконалення MapReduce. Базова парадигма MapReduce – потужний інструмент для аналізу великих обсягів даних, але він має певні недоліки, найголовніший з яких – це інструмент низького рівня, тому він вимагає написання великої кількості коду для виконання стандартних задач. Це обумовило створення деяких мов обробки даних, що компілюються у MapReduce. Серед них:
NoSQL можливості. Стандартні засобі Hadoop підходять для оффлайн та пакетної обробки «холодних» даних (тих, що не використовуються, історичних). При роботі з даними, доступ до яких відбувається в момент роботи, виникає потреба у більш продуктивних інструментах. Для цього використовується Cassandra – розподілена NoSQL база даних. При цьому для роботи з цією БД використовується структурована мова схожа на SQL. В результаті отримана система має високу продуктивність та майже постійні показники доступності даних, що робить її системою для мобільних та веб-застосунків, що використовують опитування в реальному часі. Інша значна перевага Cassandra – майже лінійне масштабування. Зі збільшенням обсягів даних додаються нові вузли до кластера.
Аналітика та Машинне навчання. Для організацій, що навантажені великим обсягом даних та потребують проведення просунутого аналізу над цими даними, також є кілька інструментів, що інтегруються разом з Hadoop:
Збір та розміщення даних. Hadoop може використовуватись також з великими обсягами даних, що постійно збільшуються. Для того, щоб скерувати потік нових даних до сховища можна використовувати спеціальні інструменти:
Висновок. Таким чином, Hadoop – це комплексне рішення для роботи з великими обсягами даних, функціонал якого може бути розширений з використанням наявних для інтеграції технологій.
Література: