М.: Вильямс, 2011. — 512 с. — ISBN 978-5-8459-1623-5.
Введение в информационный поиск - это первый учебник, который содержит взаимосвязанное изложение проблем классического информационного поиска и поиска в вебе, включая смежные задачи классификации и кластеризации текстов.
Об авторах
Кристофер Д. Маннинг - профессор информатики и лингвистики Станфордского университета.
Прабхакар Рагхаван - директор исследовательского департамента Yahoo! Research и профессор-консультант информатики Станфордского университета.
Хайнрих Шютце - заведующий кафкедрой теоретической вычислительной лингвистики Института обработки текстов и естественных языках Штутгарского университета.
Для пользователей средней и высокой квалификации.
Таблица обозначений
Предисловие
БлагодарностиБулев поискПример информационного поиска
Первая попытка создать инвертированный индекс
Обработка булевых запросов
Сравнение расширенной булевой модели и ранжированного поиска
Библиография и рекомендации для дальнейшего чтения
Лексикон и списки словопозицийСхематизация документа и декодирование последовательности символов
Определение лексикона терминов
Быстрое пересечение инвертированных списков с помощью указателей пропусков
Словопозиции с координатами и фразовые запросы
Библиография и рекомендации для дальнейшего чтения
Словари и нечеткий поискПоисковые структуры для словарей
Запросы с джокером
Исправление опечаток
Фонетические исправления
Библиография и рекомендации для дальнейшего чтения
Построение индексаОсновы аппаратного обеспечения
Блочное индексирование, основанное на сортировке
Однопроходное индексирование в оперативной памяти
Распределенное индексирование
Динамическое индексирование
Другие типы индексов
Библиография и рекомендации для дальнейшего чтения
Сжатие индексаСтатистические характеристики терминов в информационном поиске
Сжатие словаря
Сжатие инвертированного файла
Библиография и рекомендации для дальнейшего чтения
Ранжирование, взвешивание терминов и модель векторного пространстваПараметрические и зонные индексы
Частота термина и взвешивание
Модель векторного пространства для ранжирования
Варианты функций tf-idf
Библиография и рекомендации для дальнейшего чтения
Ранжирование в полнофункциональной поисковой системеЭффективное ранжирование
Компоненты информационно-поисковой системы
Влияние операторов языка запросов на ранжирование в векторном пространстве
Библиография и рекомендации для дальнейшего чтения
Оценка информационного поискаОценка информационно-поисковой системы
Стандартные тестовые коллекции
Оценка неранжированных результатов поиска
Оценка ранжированных результатов поиска
Оценка релевантности
Более широкая точка зрения: качество системы и ее полезность для пользователя
Сниппеты
Библиография и рекомендации для дальнейшего чтения
Обратная связь по релевантности и расширение запросаОбратная связь по релевантности и псевдорелевантности
Глобальные методы для переформулирования запроса
Библиография и рекомендации для дальнейшего чтения
XML-поискОсновные концепции языка XML
Проблемы, связанные с XML-поиском
Модель векторного пространства для XML-поиска
Оценка XML-поиска
Методы XML-поиска, ориентированные на текст и на данные
Библиография и рекомендации для дальнейшего чтения
Вероятностная модель информационного поискаОсновы теории вероятностей
Принцип вероятностного ранжирования
Бинарная модель независимости
Вероятностные модели и некоторые модификации
Библиография и рекомендации для дальнейшего чтения
Языковые модели для информационного поискаЯзыковые модели
Модель правдоподобия запроса
Сравнение языкового моделирования с другими подходами к информационному поиску
Расширения языковых моделей
Библиография и рекомендации для дальнейшего чтения
Классификация текстов и наивный байесовский подходКлассификация текстов
Наивная байесовская классификация текстов
Модель Бернулли
Свойства наивной байесовской модели
Выбор признаков
Оценка классификации текстов
Библиография и рекомендации для дальнейшего чтения
Классификация в векторном пространствеПредставление документов и меры близости в векторном пространстве
Метод Роккио
Метод
k ближайших соседей
Линейные и нелинейные классификаторы
Классификация с несколькими классами
Компромисс между смещением и дисперсией
Библиография и рекомендации для дальнейшего чтения
Метод опорных векторов и машинное обучение на документахМетод опорных векторов: случай линейно разделимых классов
Расширения модели опорных векторов
Проблемы, связанные с классификацией текстовых документов
Методы машинного обучения для поиска по запросу
Библиография и рекомендации для дальнейшего чтения
Плоская кластеризацияКластеризация в информационном поиске
Формулировка задачи
Оценивание кластеризации
Метод
K-средних
Кластеризация, основанная на моделях
Библиография и рекомендации для дальнейшего чтения
Иерархическая кластеризацияАгломеративная иерархическая кластеризация
Кластеризация методами одиночной и полной связи
Агломеративная кластеризация на основе усреднения по группе
Кластеризация методом центроидов
Оптимальность агломеративной иерархической кластеризации
Нисходящая кластеризация
Именование кластеров
Вопросы реализации
Библиография и рекомендации для дальнейшего чтения
Разложение матриц и латентно-семантическое индексированиеОбзор сведений из линейной алгебры
Матрицы “термин-документ” и сингулярные разложения
Малоранговые аппроксимации
Латентно-семантическое индексирование
Библиография и рекомендации для дальнейшего чтения
Основы поиска в вебеОсновы и история
Характеристики веба
Реклама как экономическая модель
Опыт пользователей поисковых систем
Размер индекса и оценка его размера
Нечеткие дубликаты и алгоритм шинглов
Библиография и рекомендации для дальнейшего чтения
Обход и индексирование вебаОбзор
Обход веба
Распределение индексов
Серверы проверки ссылочной связности
Библиография и рекомендации для дальнейшего чтения
Анализ ссылокВеб как граф
Метод PageRank
Порталы и авторитетные источники
Библиография и рекомендации для дальнейшего чтения
Содержание
Библиография
Предметный указатель