MaterStudiorum.ru - домашняя страничка студента.
Минимум рекламы - максимум информации.


Авиация и космонавтика
Административное право
Арбитражный процесс
Архитектура
Астрология
Астрономия
Банковское дело
Безопасность жизнедеятельности
Биографии
Биология
Биология и химия
Биржевое дело
Ботаника и сельское хоз-во
Бухгалтерский учет и аудит
Валютные отношения
Ветеринария
Военная кафедра
География
Геодезия
Геология
Геополитика
Государство и право
Гражданское право и процесс
Делопроизводство
Деньги и кредит
Естествознание
Журналистика
Зоология
Издательское дело и полиграфия
Инвестиции
Иностранный язык
Информатика
Информатика, программирование
Исторические личности
История
История техники
Кибернетика
Коммуникации и связь
Компьютерные науки
Косметология
Краткое содержание произведений
Криминалистика
Криминология
Криптология
Кулинария
Культура и искусство
Культурология
Литература и русский язык
Литература(зарубежная)
Логика
Логистика
Маркетинг
Математика
Медицина, здоровье
Медицинские науки
Международное публичное право
Международное частное право
Международные отношения
Менеджмент
Металлургия
Москвоведение
Музыка
Муниципальное право
Налоги, налогообложение
Наука и техника
Начертательная геометрия
Новейшая история, политология
Оккультизм и уфология
Остальные рефераты
Педагогика
Полиграфия
Политология
Право
Право, юриспруденция
Предпринимательство
Промышленность, производство
Психология
Психология, педагогика
Радиоэлектроника
Разное
Реклама
Религия и мифология
Риторика
Сексология
Социология
Статистика
Страхование
Строительные науки
Строительство
Схемотехника
Таможенная система
Теория государства и права
Теория организации
Теплотехника
Технология
Товароведение
Транспорт
Трудовое право
Туризм
Уголовное право и процесс
Управление
Управленческие науки
Физика
Физкультура и спорт
Философия
Финансовые науки
Финансы
Фотография
Химия
Хозяйственное право
Цифровые устройства
Экологическое право
Экология
Экономика
Экономико-математическое моделирование
Экономическая география
Экономическая теория
Эргономика
Этика
Юриспруденция
Языковедение
Языкознание, филология
    Начало -> Информатика, программирование -> Выделение ключевых слов в текстовых документах

Название:Выделение ключевых слов в текстовых документах
Просмотров:50
Раздел:Информатика, программирование
Ссылка:none(0 KB)
Описание: Федеральное агентство по образованию Государственное образовательное учреждение высшего профессионального образования Вятский государственный гуманитарный университет Рефера

Университетская электронная библиотека.
www.infoliolib.info

Часть полного текста документа:

Федеральное агентство по образованию

Государственное образовательное учреждение высшего профессионального образования

Вятский государственный гуманитарный университет

Реферат

Выделение ключевых слов в текстовых документах

Киров 2008 г.


Введение

Для решения задач классификации текстов, документы в непосредственном виде не подходят для интерпретации классификатором. Поэтому необходимо применение процедуры индексации, которая переводит текст в удобное представление. В частности стандартные методы классификации, такие как нейронные сети и деревья решений, требуют представление документа в виде вектора из n взвешенных признаков. Построение такого вектора называется выделением признаков, а само представление векторной моделью документа.

Различия в подходах заключаются:

1) в понимании, что такое термин;

2) в способах определения веса термина.

Обычно признакам соответствуют все или некоторые отдельно взятые слова документа. В ряде экспериментов было обнаружено, что чуть даже более сложное представление менее эффективно. В частности, некоторые авторы пробовали использовать группы слов (стилистические, синтаксические) в качестве признаков. Д.Д. Льюис [5] довольно убедительно утверждает, что, скорее всего, причиной неутешительных результатов является то, что методы индексирования на основе фраз обладают худшими статистическими характеристиками по отношению к методам на основе одиночных слов, хотя их семантические качества гораздо выше.

Одним из самых распространенных методов перехода к математической модели документа, является «метод ключевых слов». Ключевое слово – слово в тексте, способное в совокупности с другими ключевыми словами представлять текст. Суть метода в следующем. Для каждого класса текстов создается список характерных для него слов, тогда каждый текст можно представить в виде вектора частот появлении в нём слов из данного списка [9]. Возникает проблема поиска и выделения из текста слов, которые будут для него ключевыми. Огромный объем информации, который подлежит обработке, делают особенно актуальной задачу автоматического выделения ключевых слов. Причем от чистоты этого выделения напрямую зависит точность классификации.

Целью работы является рассмотреть методы отделения ключевых слов в текстовых документах.

В работе, в основном, затрагиваются статистические методы, основанные на законах Ципфа, а также модель TF*IDF.

В экспериментальном разделе описывается модуль, основанный на модели TF*IDF, приведена оценка его возможностей для выделения ключевых слов из коллекции документов.


1. Статистика в текстах: законы Ципфа

Во всех текстовых документах, созданных человеком, можно выделить статистические закономерности. В любом языке есть слова, которые встречаются чаще, чем остальные, но не имеют значения. Есть слова, которые встречаются реже, но имеют намного большее смысловое значение.

В 1949 году Джордж Ципф (George Kingsley Zipf) гарвардский профессор-лингвист и филолог, работая над принципом наименьшего усилия, сформулировал несколько закономерностей. Данные законы получены не на основе математических выводов, а на основе анализа статистики частоты слов текстах на многих языках, то есть эмпирически.

В то время, когда Ципф сформулировал подмеченные им закономерности распределения частоты слов, законом они не считались – еще не было компьютеров и нельзя было провести точные расчеты, подтверждающие выявленные закономерности. ............







Похожие работы:

Название:Специфика документационного обеспечения в кадровых службах
Просмотров:704
Описание: Введение Целью создания моей курсовой работы является описание структуры служб ДОУ и раскрытие их основных функций. Тема моей работы: «специфика документационного обеспечения в кадровых службах». Я считаю

Название:Проблема рассекречивания документов на современном этапе
Просмотров:806
Описание: Курсовая работа Выполнил Студент III курса группы ИФ 31 – 07  Толстов Юрий Олегович Чувашский государственный университет имени И.Н.Ульянова Чебоксары 2010 Введение Рассекречивание архивных документов важно

Название:Некоторые новые данные анализа сил и потерь на советско-германском фронте
Просмотров:645
Описание: Г.Ф.Кривошеев (Доклад на заседании Ассоциации историков Второй мировой войны 29.12.1998 г.) Уже не раз в выступлениях президента, членов правительства, в средствах массовой информации сообщалось число потерь как вое

Название:Визитная карточка как вид документа
Просмотров:828
Описание: Джон Фрюлинг, дизайнер-полиграфист (США) По вашей визитке о вас судят больше и увереннее, чем по костюму или автомобилю. Сейчас мало кто знает, какой угол визитной карточки нужно было загнуть, оставляя ее лакею, чт

Название:Некоторые черты религиозного быта Челябинска в XVIII — начале XIX века
Просмотров:640
Описание: Конюченко А. И. История строительства челябинских церквей в дореволюционный период и их последующая судьба получили отражение в работах трех авторов, вклад которых в изучение прошлого нашего города навряд ли смо

 
     

Вечно с вами © MaterStudiorum.ru