Доклады по Web Mining
Очередная встреча Санкт-Петербургского Сообщества .Net-Разработчиков, посвященная вопросам web mining – получения, анализа и записи данных из интернета
Программа:
- 19.00 – 20.30 — Practical web data extraction (in .NET): .NET и другие, Андрей Щекин
Технологии:- Доступ: WebRequest/WebClient, альтернативы (libcurl), кэширование, интеграционные тесты
- Разбор: HtmlAgilityPack и Majestic-12
- Извлечение: задание правил трансформации, XPath extension functions, регулярные выражения, микроформаты
Практический пример: Reuse Project - Анализ (web mining, кратко): кластеризация, bayesian classification, stemming
- 20.30 – 22.00 — Web Mining От и До, Дмитрий Нестерук
- Основные понятия. Что такое ETL.
- Extraction
- WebRequest против WatiN
- Навигация по DOM
- Проблемы с многопоточностью
- Transformation
- Приведение к Xml (SgmlReader)
- Создание схем
- Визуальный мэппинг
- Load (он же Persistence)
- Append-only vs. upsert
- Выбор persistence store
- Инфраструктура
- Поллинг vs. ad-hoc
- “Правильный” сервис
- Логирование
- Использование в распределенной среде
Место проведения: офис Exigen Services, ул. Рентгена, д. 5 (м. Петроградская)
Стоимость участия:
бесплатно