Classification of text and graphic regions on a fragment of document image

Gorokhovatskyi O. V.; Гороховатский А. В.; Гороховатський О. В.

Будь ласка, використовуйте цей ідентифікатор, щоб цитувати або посилатися на цей матеріал: https://repository.hneu.edu.ua/handle/123456789/11963

Назва:	Classification of text and graphic regions on a fragment of document image
Інші назви:	КЛАССИФИКАЦИЯ ТЕКСТОВЫХ И ГРАФИЧЕСКИХ ОБЛАСТЕЙ НА ФРАГМЕНТЕ ИЗОБРАЖЕНИЯ ДОКУМЕНТА КЛАСИФІКАЦІЯ ТЕКСТОВИХ ТА ГРАФІЧНИХ ОБЛАСТЕЙ НА ФРАГМЕНТІ ЗОБРАЖЕННЯ ДОКУМЕНТА
Автори:	Gorokhovatskyi O. V. Гороховатский А. В. Гороховатський О. В.
Теми:	image classification document region threshold decomposition text region graphic region areas distribution support vector machine классификация изображения область документа порог разбиение текстовая область графическая область распределение площадей машина опорных векторов класифікація зображення область документу поріг декомпозиція текстова область графічна область розподілення площ машина опорних векторів
Дата публікації:	2015
Бібліографічний опис:	Gorokhovatskyi O. Classification of text and graphic regions on a fragment of document image / O. Gorokhovatskyi // Electrotechnic and Computer Systems. – 2014. – № 13 (89) – P. 120-124
Короткий огляд (реферат):	The goal of this paper is to develop a method for the classification of region of document image as graphic or text content type. As an input of the method segment (rectangular region of an image) containing a homogeneous content – text or graphic object – is used. Region analysis is performed on the assumption that it is a text region, projection partition allows to split this region into objects of smaller size. Construction of the narrative function characterizing areas of the image sub-elements is proposed. Feature size distribution for the next processing step is used for training and classification using support vector machines. Solving of the binary classification problem in general case of linear inseparability, based on a radial basis function as a kernel, is considered.Selection of the optimal parameters for the training is performed by trying out all possible combinations of the parameters with fixed value range and step, and further selection of a single combination that minimizes training error. Using the proposed approach allows to classify text area with a probability of 0.9859, graphics region – with a probability of about 0.9451. An investigation of the drawbacks and limitations of the proposed method was performed, areas of its applications were discovered. Scientific results of the paper can be used in automatic document image processing, analysis and pattern recognition Целью статьи является разработка метода классификации графической и текстовой области изображения документа. В качестве исходной информации имеется сегмент (прямоугольная область изображения), содержащая однородный контент – текст либо графический объект. Анализ области выполняется в предположении, что она является текстовой, производится проекционное разбиение рассматриваемой области на более мелкие объекты. Предложено построение описательной функции, характеризующей размеры объектов на изображении. Функция распределения размеров на следующем этапе обработки используется для обучения и классификации с помощью машины опорных векторов. Рассмотрено решение задачи бинарной классификации в общем случае линейной неразделимости с использованием радиальной базисной функции в качестве ядра. Подбор оптимальных параметров для обучения выполнен с помощью перебора всех комбинаций параметров при фиксированных диапазонах значений и шаге с последующим выбором той из них, которая позволяет минимизировать ошибку обучения. Использование предложенного подхода позволяет выполнять классификацию текстовой области с вероятностью, равной 0.9859, графической – с вероятностью около 0.9451. Проведено исследование недостатков и ограничений предложенного метода, определены области его применения. Полученные результаты могут быть использованы при автоматической обработке изображений документов, их анализе и распознавании Метою статті є розробка методу класифікації графічної і текстової області зображення документа. В якості вихідної інформації використовується сегмент (прямокутна область зображення), що містить однорідний контент - текст або графічний об'єкт. Аналіз області виконується в припущенні, що вона є текстовою, виконується проекційне розбиття області, що аналізується, на об'єкти меншого розміру. Запропоновано побудову описової функції, що характеризує розподіл розмірів об'єктів на зображенні області. Функція розподілу розмірів на наступному етапі обробки використовується для навчання та класифікації за допомогою машини опорних векторів. Розглянуто рішення задачі бінарної класифікації в загальному випадку лінійної нероздільності з використанням радіальної базисної функції в якості ядра. Підбір оптимальних параметрів для навчання виконано за допомогою перебору всіх комбінацій параметрів при фіксованих діапазонах значень і кроці з подальшим вибором тієї з них, яка дозволяє мінімізувати помилку навчання. Використання запропонованого підходу дозволяє виконувати класифікацію текстової області з імовірністю, що дорівнює 0.9859, графічної – з вірогідністю близько 0.9451. Проведено дослідження недоліків і обмежень запропонованого методу, визначено області його застосування. Отримані результати можуть бути використані при автоматичній обробці зображень документів, їх аналізі та розпізнаванні
URI (Уніфікований ідентифікатор ресурсу):	http://www.repository.hneu.edu.ua/jspui/handle/123456789/11963
Розташовується у зібраннях:	Статті (ІКТ)

Файли цього матеріалу:

Файл	Опис	Розмір	Формат
Gorokhovatskyi.pdf		411,88 kB	Adobe PDF	Переглянути/відкрити

Показати повний опис матеріалу Перегляд статистики

Усі матеріали в архіві електронних ресурсів захищені авторським правом, всі права збережені.