Привет. Давно ничего не писал и пора это исправлять. Это наверное 25 вариант начала статьи. Совсем потерял «стиль», если таковой и был.
В этой статье я расскажу как можно с помощью нескольких строчек программного кода, умения пользоваться готовыми решениями, головы на плечах и терпения написать свой простой «парсер». Бонусом будет то, что если подойти к этому с головой, то можно еще узнать сколько примерно в месяц зарабатывает Церебро на своих пользователях
Оглавление
Как сделать свой парсер
Если вы думаете что это сложно, то вы заблуждаетесь. Сложно из этого сделать продукт с именем такие как Церебро или Сегменто-Таргер. Если делать для себя и без особых требований к интерфейсу, обработке ошибок и еще кучи разных вещей, то большую часть тех же парсеров, которые есть в Церебро можно сделать достаточно быстро…. относительно быстро. Насколько относительно я расскажу на своём примере
- 15 февраля 2016 я пошёл на курсы по Python (надо же на чём-то уметь писать, иначе никак)
- До этого я особо ничего не умел. Пробовал конечно простые вещи типа математических операций или «if … else», но до функций и циклов никогда самостоятельно не доходил, а есть еще классы (ооп), которое я вообще не понимаю
- Я знал, что на github.com есть готовые решения для взаимодействия с api vk, через которые все скрипты данные и получают. Нужно было только разобраться как с ними работать
- Учитывая сколько времени потрачено на сериалы, то можно было бы уложиться недели в 2 или в неделю (поменьше сериалов, ага)
- 9 марта в 00:50 мне удалось получить данные из конкретного обсуждения группы (https://vk.com/topic-73662138_30552450) и записать данные в эксель файл
Итого: для написания парсера конкретного топика обсуждения из заданной группы потребовалось 3 недели!!! А ведь это мой первый опыт программирования как таковой.
Что потребуется чтобы написать свой первый парсер на Python с нуля без знаний программирования
- Качаем и устанавливаем PyCharm + можно еще https://www.continuum.io/downloads (тут автоматом ставит всё под винду + рекомендую попробовать Jupyter Notebook для начала (скрин — http://take.ms/T4YoS)
- http://pythonworld.ru/ http://pythontutor.ru/ — разобраться с синтаксисом Python
- Научиться устанавливать готовые пакеты с github.com
- Установить пакет vk-requests (не пугайтесь, как я написал выше можно не понимать что это, главное понимать что на выходе — [{‘first_name’: ‘Pavel’, ‘last_name’: ‘Durov’, ‘id’: 1}]и как с этим работать), пакет xlsxwriter для записи в эксель (если требуется, можно и в csv без проблем)
- Написать код
Вот что получилось у меня (100% это говно-код и можно его улучшить)
— https://www.dropbox.com/s/uq1po172zjk7j35/GetBoardTopicComments.py?dl=0
Вы можете взять мой скрипт, изменить в нём
Group_id
=
73662138
Topic_id
=
30552450
и получить данные из того топика, который вам нужен
Бонус
Почему меня заинтересовало именно это обсуждение? В этом обсуждении пользователи Церебро публиковали заявки на подключение к системе до появления сайта. Каждая такая заявка содержит дату публикации, сумму оплаты, способ оплаты, автора и тд.
Следовательно, выгрузив комментарии из этого топика, сможем увидеть динамику заявок в Церебро на подключение и сделать предположения и доходах данного сервиса с некоторой погрешностью
Прежде чем строить этот график нужно было конечно подготовить данные: удалить ответы админа, удалить сообщения не «заявки». Это около 50-60%.
Как видно на графике после 25 марта 2015 идёт резкий обвал обращений через топик. Предполагаю, что большая часть новых и повторных покупок ушла на сайт.
Если нарисовать линию тренда, то получится примерно так
60% как было написано выше — это «плохие» обращения. В итоге получаем 100 заявок на оплату в сутки. Если чек составляет 700 рублей, то выходит 70 000 рублейв день или
2 100 000 руб. в месяц!!!.
Теперь вы понимаете почему так много было аналогов в 2015 году?
Выводы
Написать простой скрипт для сбора данных из ВКонтакте можно достаточно быстро и с нуля. Навык программирования более устойчивый во времени и более универсальный чем навыки по SMMинтернет-маркетингу.
Скрипты для сбора данных из ВК отличный вариант для начала изучения языка программирования для SMM-специалиста, так как на выходе у вас получаются данные, которые можно использовать для анализа, ретаргетинга и тд.
Остались вопросы или пожелания? Оставляйте их в комментариях