Development of fuzzy search method for creating an efficient information search system in text data

The object of research is the processes of effective search for information in a set of textual data. The subject of the research is the fuzzy search method, which will allow to effectively solve the problem of searching for information in a set of textual data. The paper considers the process of de...

Full description

Saved in:
Bibliographic Details
Published inTechnology audit and production reserves (Online) Vol. 1; no. 2(75); pp. 20 - 24
Main Author Kleshch, Kyrylo
Format Journal Article
LanguageEnglish
Published 13.02.2024
Online AccessGet full text
ISSN2664-9969
2706-5448
DOI10.15587/2706-5448.2024.298425

Cover

More Information
Summary:The object of research is the processes of effective search for information in a set of textual data. The subject of the research is the fuzzy search method, which will allow to effectively solve the problem of searching for information in a set of textual data. The paper considers the process of developing a fuzzy search method, which consists of 9 consecutive steps and is required for a quick search for matches in a large set of text data. Based on this method, it is proposed to create a fuzzy search system that will solve the problem of finding the most relevant documents from a set of such documents. The proposed fuzzy search method combines the advantages of algorithms based on deterministic finite automata and algorithms based on dynamic programming for calculating the Damerau-Levenshtein distance. Such a combination allows to implement the symbol similarity table in an optimal way. As part of the work, an approach for creating a symbol similarity table was proposed and an example of such a table was created for symbols from the English alphabet, which allows to find the degree of similarity between two symbols with constant asymptotics and to convert the current symbol into its basic counterpart. For document filtering, a metric was developed to evaluate the correspondence of text data to a search phrase, which simultaneously takes into account the number of found and not found characters and the number of found and not found words. The Damerau-Levenstein algorithm allows to find the edit distance between two words, taking into account the following types of errors: substitution, addition, deletion, and transposition of characters. The work proposed a modification of this algorithm by using a similarity table to more accurately estimate the editing distance between two words. The developed method makes it possible to create a fuzzy search system that will help find the desired results faster and increase the relevance of the obtained results by sorting them according to the values of the proposed test data similarity metric. Об’єктом дослідження є процеси ефективного пошуку інформації в наборі текстових даних. Предметом дослідження є метод нечіткого пошуку, який дозволить ефективно розв’язати задачу пошуку інформації в наборі текстових даних. В роботі розглянуто процес розробки методу нечіткого пошуку, який складається з 9 послідовних кроків та потрібен для швидкого пошуку співпадінь у великому наборі текстових даних. На основі цього методу пропонується створення системи нечіткого пошуку, яка дозволить вирішити задачу пошуку найбільш релевантних документів з набору таких документів. Запропонований метод нечіткого пошуку комбінує переваги алгоритмів на основі детермінованих скінченних автоматів та алгоритмів на основі динамічного програмування для підрахунку відстані Дамерау-Левенштейна. Така комбінація дозволяє впровадити таблицю подібності символів оптимальним чином. В рамках роботи запропоновано підхід для створення таблиці подібності символів та створено приклад такої таблиці для символів з англійського алфавіту, що дозволяє з константною асимптотикою знаходити міру подібності поміж двома символами та перетворювати поточний символ в його базовий аналог. Для фільтрування документів було розроблено метрику оцінки відповідності текстових даних до пошукової фрази, яка одночасно враховує кількість знайдених і незнайдених символів та кількість знайдених і незнайдених слів. Алгоритм Дамерау-Левенштейна дозволяє знаходити відстань редагування поміж двома словами, враховуючи помилки наступних типів: заміна, додавання, видалення та транспозиція символів. В рамках роботи була запропонована модифікація цього алгоритму за допомогою використання таблиці подібності для більш точної оцінки відстані редагування між двома словами. Розроблений метод дозволяє створити систему нечіткого пошуку, яка допоможе знаходити шукані результати швидше та підвищить релевантність отриманих результатів, за рахунок їх сортування відповідно до значень запропонованої метрики подібності тестових даних.
ISSN:2664-9969
2706-5448
DOI:10.15587/2706-5448.2024.298425