Парсинг метатегов через Google таблицы легко и просто
Необходимо было сделать парсинг метатегов title со всех url сайта, а их было около 1500+. Наткнулся на решение проблемы с помощью Google Таблиц, в которых существуют функции для парсинга отдельных элементов страниц сайта.
Показываю пример того как с помощью Google Таблиц можно собрать мета теги title, description и keywords не напрягаясь и не скачивая сторонних программ.
1. Создаем таблицу в Google Docs
Создаем таблицу и пихаем все нужные нам УРЛы в столбик. И рядом прописываем столбцы какие метатеги будем собрать чтобы не запутаться.
2. Формулы для парсинга
Пользуемся формулами:
1 2 3 4 | =importxml(A2;"//title") =importxml(A2;"//meta[@name='description']/@content") =importxml(A2;"//meta[@name='keywords']/@content") =importxml(A2;"//h1") |
Для начала пропишем тайтл:
И смотрим что получилось:
Как мы видим тайтл страницы появился в ячейке.
Далее просто тянем ячейку вниз.
Все гениальное просто!
Теперь проделываем тоже самое с другими формулами и получаем парсинг метатегов через гугл таблицы!