Будь ласка, використовуйте цей ідентифікатор, щоб цитувати або посилатися на цей матеріал: http://repository.hneu.edu.ua/handle/123456789/32837
Назва: Метод збільшення продуктивності Apache Spark на основі сегментування даних і налаштувань конфігураційних параметрів
Автори: Мінухін С.
Коптілов Н.
Теми: фреймворк
вхідний файл
сегментування
тестові дані
генератор даних
час виконання
конфігураційні параметри
Spark
Hadoop
MapReduce
Дата публікації: 2024
Бібліографічний опис: Мінухін С. Метод збільшення продуктивності Apache Spark на основі сегментування даних і налаштувань конфігураційних параметрів / С. Мінухін, Н. Коптілов // Innovative technologies and scientific solutions for industries. - 2024. - No. 1 (27). - С. 128-139.
Короткий огляд (реферат): У використанні сучасних інструментів оброблення великих даних виникає проблема підвищення продуктивності сучасних фреймворків у контексті ефективного налаштування різних конфігураційних параметрів. Об’єктом дослідження є обчислювальні процеси оброблення великих даних із застосуванням технологій надпродуктивних фреймворків. Предметом є методи та підходи до ефективного налаштування конфігураційних параметрів фреймворків в умовах обмежень середовищ віртуалізації та локального ресурсу. Мета дослідження полягає в підвищенні продуктивності режимів розгортання Apache Spark та Apache Hadoop на основі комбінованого підходу, що містить передпроцесне сегментування вхідних даних та налаштування основних та додаткових конфігураційних параметрів з огляду на обмеження віртуального середовища та локального ресурсу. Досягнення поставленої мети передбачає виконання низки завдань: 1) створити синтезований набір тестових даних WordCount для використання методів сегментування вхідної інформації; 2) визначити склад загальних та специфічних конфігураційних параметрів Apache Spark та Apache Hadoop, що найбільше впливають на продуктивність роботи фреймворків у режимах розгортання Spark Standalone та Hadoop Yarn (FIFO); 3) обґрунтувати зміни значень конфігураційних параметрів (прийняті за замовчуванням) за допомогою налаштувань рівня паралелізму, кількості розбиттів вхідного файлу відповідно до кількості ядер процесора, кількості завдань, що призначаються на кожне ядро та виконавця в системі; 4) перевірити теоретичні результати та довести їх використання на практиці. У дослідженні впроваджено такі методи: статистичний аналіз; метод генерації тестових даних за визначеними характеристиками сегментування з довільними обсягами інформації; системний підхід для комплексного оцінювання та аналізу продуктивності фреймворків на основі обраних конфігураційних параметрів. Результати. На основі запропонованого методу вибору складу параметрів для оцінювання продуктивності досліджуваних фреймворків проведено експерименти, що передбачали: застосування методу сегментування вхідної інформації на основі розділення вхідного файлу на абзаци (рядки) для різних значень діапазонів кількості слів та кількості літер у кожному слові; налаштування основних параметрів та специфічних, зокрема партиціонування та паралелізму з огляду на характеристики віртуального середовища та локального ресурсу. За досягнутими результатами детально проаналізовано запропоновані методи, впроваджені для покращення продуктивності досліджуваних фреймворків із рекомендаціями вибору оптимальних значень параметрів сегментування даних та конфігураційних параметрів. Висновки. Упровадження запропонованих методів налаштування конфігураційних параметрів Spark та Hadoop дає змогу підвищити продуктивність оброблення даних: для невеликих файлів (0,5–1 ГБ) у середньому до 25–30%; для великих (1,5–2,5 ГБ) – у середньому до 10–20 %. Водночас середнє значення часу виконання одного завдання зменшилося на 10–15 % для файлів різних розмірів та з різною кількістю слів у рядку.
URI (Уніфікований ідентифікатор ресурсу): http://repository.hneu.edu.ua/handle/123456789/32837
Розташовується у зібраннях:Статті (ІС)

Файли цього матеріалу:
Файл Опис РозмірФормат 
Стаття_Мінухін С.._В._2.pdf632,55 kBAdobe PDFПереглянути/відкрити


Усі матеріали в архіві електронних ресурсів захищені авторським правом, всі права збережені.