Зарегистрироваться
Восстановить пароль
FAQ по входу

Рассел Мэтью, Классен Михаил. Data Mining. Извлечение информации из Facebook, Twitter, LinkedIn, Instagram, GitHub

  • Файл формата pdf
  • размером 32,16 МБ
  • Добавлен пользователем
  • Описание отредактировано
Рассел Мэтью, Классен Михаил. Data Mining. Извлечение информации из Facebook, Twitter, LinkedIn, Instagram, GitHub
СПб.: Питер, 2020. — 464 с. — (IT для бизнеса). — ISBN 978-5-4461-1246-3.
В недрах популярных социальных сетей - Twitter, Facebook, LinkedIn и Instagram - скрыты богатейшие залежи информации. Из этой книги исследователи, аналитики и разработчики узнают, как извлекать эти уникальные данные, используя код на Python, Jupyter Notebook или контейнеры Docker.
Сначала вы познакомитесь с функционалом самых популярных социальных сетей (Twitter, Facebook, LinkedIn, Instagram), веб-страниц, блогов и лент, электронной почты и GitHub. Затем приступите к анализу данных на примере Twitter.
С точки зрения анализа социальных сетей данные, которые Facebook хранит о людях, группах и продуктах, представляют очень большой интерес, потому что Facebook API предлагает невероятные возможности для получения информации (самый ценный товар в мире) и сбора ценных идей. С другой стороны, большие возможности накладывают большую ответственность, поэтому в Facebook реализован самый сложный онлайн-контроль конфиденциальности, который когда-либо видел мир, чтобы помочь защитить своих пользователей от посягательств.
Прочитайте эту книгу, чтобы:
Узнать о современном ландшафте социальных сетей
Научиться использовать Docker, чтобы легко оперировать кодами, приведенными в книге;
Узнать, как адаптировать и поставлять код в открытый репозиторий GitHub;
Научиться анализировать собираемые данные с использованием возможностей Python 3;
Освоить продвинутые приемы анализа, такие как TFIDF, косинусное сходство, анализ словосочетаний, определение клика и распознавание образов;
Узнать, как создавать красивые визуализации данных с помощью Python и JavaScript.
Предисловие
Примечание Мэтью Рассела
README.lst
Предвосхищая ожидания
Технологии на основе Python
Новое в третьем издании
Этические аспекты добычи данных
Типографские соглашения
Использование примеров программного кода
Благодарности к третьему изданию
Благодарности ко второму изданию
Благодарности к первому изданию
От издательств
Экскурсия по социальным сетям
Вступление
Twitter: исследование актуальных тем, о чем говорят люди и многое другое

Обзор
Причины популярности Twitter
Twitter API
Анализ 140 (или более) символов
Заключительные замечания
Упражнения
Онлайн-ресурсы
Facebook: анализ фан-сграниц, исследование дружественных связей и многое другое
Обзор
Facebook Graph API
Анализ связей в социальном графе
Заключительные замечания
Упражнения
Онлайн-ресурсы
Instagram: компьютерное зрение, нейронные сети, распознавание объектов и лиц
Обзор
Instagram API
Анатомия поста в Instagram
Краткое введение в искусственные нейронные сети
Применение нейронных сетей для анализа постов в Instagram
Заключительные замечания
Упражнения
Онлайн-ресурсы
LinkedIn: классификация по профессиям, группировка коллег и многое другое
Обзор
LinkedIn API
Краткое введение в приемы кластеризации данных
Заключительные замечания
Упражнения
Онлайн-ресурсы
Анализ текстовых файлов: определение сходства документов, извлечение словосочетаний и многое другое
Обзор
Текстовые файлы
Краткое введение в TF-IDF
Оценка запросов данных на естественном языке с использованием TF-IDF
Заключительные замечания
Упражнения
Онлайн-ресурсы
Анализ веб-страниц: использование методов обработки естественного языка, обобщение статей из блогов и многое другое
Обзор
Скрапинг, парсинг и обход сайтов в интернет
Определение семантики декодированием синтаксиса
Анализ сущностей: смена парадигмы
Оценка качества при анализе данных на человеческом языке
Заключительные замечания
Упражнения
Онлайн-ресурсы
Анализ электронной почты: кто кому пишет, о чем, как часто и многое другое
Обзор
Получение и обработка корпуса с почтовыми сообщениями
Анализ корпуса Enron
Анализ собственных почтовых данных
Заключительные замечания
Упражнения
Онлайн-ресурсы
Анализ GitHub: особенности сотрудничества при разработке ПО, графы интересов и многое другое
Обзор
GitHub API
Моделирование данных с помощью графов свойств
Анализ графов интересов в GitHub
Заключительные замечания
Упражнения
Онлайн-ресурсы
Сборник рецептов для Twitter
Сборник рецептов для Twitter

Доступ к Twitter API для целей разработки
Использование OAuth для доступа к Twitter API в промышленных целях
Поиск актуальных тем
Поиск твитов
Конструирование удобных вызовов функций
Запись и чтение текстовых файлов с данными JSON
Сохранение данных JSON в MongoDB и доступ к ним
Получение выборки из потока твитов с использованием Streaming API
Сбор временных последовательностей данных
Извлечение сущностей из твитов
Поиск самых популярных твитов в коллекции
Поиск самых популярных сущностей в коллекции твитов
Вывод результатов частотного анализа в табличной форме
Поиск пользователей, ретвитнувших статус
Определение автора твита
Выполнение надежных запросов к Twitter
Получение информации из профиля пользователя
Извлечение сущностей твитов из произвольного текста
Получение всех друзей и последователей пользователя
Анализ друзей и последователей пользователя
Извлечение твитов пользователя
Обход графа дружбы
Анализ содержимого твитов
Обобщение целевых ссылок
Анализ избранных твитов пользователя
Заключительные замечания
Упражнения
Онлайн-ресурс
Приложения
Информация о виртуальной машине с примерами для этой книги
Основы OAuth
Советы и рекомендации для Python и Jupyter Notebook
Об авторах
Об обложке
  • Чтобы скачать этот файл зарегистрируйтесь и/или войдите на сайт используя форму сверху.
  • Регистрация