Concept discovery from synonymy graphs

Research output: Contribution to journalArticleResearchpeer-review

Abstract

This paper addresses the problem of automatic concept discovery from synonymy graphs. The purpose of the present study is to reuse the widely available semi-structured synonymy dictionaries for discovering the concepts. For that, Watset, a novel concept discovery method, based on graph clustering, has been proposed. The method is designed under the assumption that the concept structures form cliques in the input synonymy graph. Watset has three primary steps. Firstly, it uses word sense induction to deal with ambiguous words. Secondly, it produces a disambiguated version of the input synonymy graph representing the synonymy relations between the particular word senses. Finally, it clusters the latter graph to produce a set of clusters corresponding to the concepts. The overall time complexity of this method has been assessed and found to be proportional to the number of the input words multiplied by the biquadratic maximum degree of the input graph. A series of experiments has also been conducted to evaluate the performance of the proposed method. Watset outperformed four analogous state-of-the-art methods in terms of pairwise recall while being comparable in terms of pairwise precision and pairwise F-score on two datasets derived from the different Russian golden standards. The software implementing the proposed approach has been made publicly available for further use.
Translated title of the contributionConcept discovery from synonymy graphs
Original languageRussian
Pages (from-to)99-112
Number of pages14
JournalВычислительные технологии
Volume22
Issue numberS1
Publication statusPublished - 2017

Fingerprint

Glossaries
Experiments

GRNTI

  • 28.23.00

Level of Research Output

  • VAK List

Cite this

@article{28d27eac9397478f810077d18f599919,
title = "Обнаружение понятий в графе синонимов",
abstract = "Рассмотрена проблема автоматического группирования семантически близких слов в понятия по материалам словарей синонимов. Представлен метод обнаружения понятий в графе синонимов Watset, основанный на кластеризации связанных значений слов в графе синонимов. Выполнено исследование вычислительной сложности предложенного метода. Проведено его сравнение с аналогичными методами. Эксперименты показывают высокую эффективность предложенного метода на основании попарных информационно-поисковых критериев по материалам двух золотых стандартов для русского языка.",
author = "Усталов, {Дмитрий Алексеевич}",
year = "2017",
language = "Русский",
volume = "22",
pages = "99--112",
journal = "Вычислительные технологии",
issn = "1560-7534",
publisher = "Институт вычислительных технологий Сибирского отделения Российской академии наук",
number = "S1",

}

Обнаружение понятий в графе синонимов. / Усталов, Дмитрий Алексеевич.

In: Вычислительные технологии, Vol. 22, No. S1, 2017, p. 99-112.

Research output: Contribution to journalArticleResearchpeer-review

TY - JOUR

T1 - Обнаружение понятий в графе синонимов

AU - Усталов, Дмитрий Алексеевич

PY - 2017

Y1 - 2017

N2 - Рассмотрена проблема автоматического группирования семантически близких слов в понятия по материалам словарей синонимов. Представлен метод обнаружения понятий в графе синонимов Watset, основанный на кластеризации связанных значений слов в графе синонимов. Выполнено исследование вычислительной сложности предложенного метода. Проведено его сравнение с аналогичными методами. Эксперименты показывают высокую эффективность предложенного метода на основании попарных информационно-поисковых критериев по материалам двух золотых стандартов для русского языка.

AB - Рассмотрена проблема автоматического группирования семантически близких слов в понятия по материалам словарей синонимов. Представлен метод обнаружения понятий в графе синонимов Watset, основанный на кластеризации связанных значений слов в графе синонимов. Выполнено исследование вычислительной сложности предложенного метода. Проведено его сравнение с аналогичными методами. Эксперименты показывают высокую эффективность предложенного метода на основании попарных информационно-поисковых критериев по материалам двух золотых стандартов для русского языка.

UR - http://elibrary.ru/item.asp?id=29221479

M3 - Статья

VL - 22

SP - 99

EP - 112

JO - Вычислительные технологии

JF - Вычислительные технологии

SN - 1560-7534

IS - S1

ER -