Программирование Практический курс парсинга сайтов на Python

Практический курс парсинга сайтов на Python
14 Видео

Как анализировать верстку и запросы к сайтам разной сложности. Как писать парсеры

13 Парсеров
Для сайтов разной сложности, которые вы напишете по мере прохождения курса

Что вы получаете

Экономию времени
на поиске обучающих материалов и оптимального решения конкретной задачи. Здесь собраны основные проблемы парсинга сайтов, встречающиеся в реальной жизни.

Подробные объяснения каждой детали процесса и многократные повторения заставят ваш мозг эффективнее запоминать материал.

Опыт и достаточное количество практики парсинга сайтов. В течение всего курса вы напишете 13 парсеров - это хорошая практика, которой так не хватает новичкам.

Программа курса
То, что нужно начинающему питонисту для начала профессиональной деятельности

  • Основы BeautifulSoup
  • Парсинг табличных данных
  • Работа с пагинацией (2 вида)
  • Чтение и запись данных в CSV
  • Запись данных в PostgreSQL
  • Продвинутые методы работы с BeautifulSoup

  • Парсинг данных, подгружаемых при помощи AJAX (2 видео)
  • Парсинг в несколько процессов
  • Использование прокси
  • Парсинг данных, подгружаемых JQuery
  • Смена User-Agent
Этот курс для вас, если:
  • Вы проработали хоть какой-нибудь туториал по Python и знаете основы языка (списки, словари, циклы, функции
  • На базовом уровне вы знаете HTML
  • Вы думающий человек, который готов разбираться в своем коде и отрабатывать свои ошибки

Продажник:
[HIDE="0"] [/HIDE]
Скачать:
 

Последнее редактирование:
Рекламное сообщение
👑 Pirate Cards Premium Service - Оплачивайте товары. Выводите валюту. Анонимно, низкие проценты.

Благодаря нашему сервису вы сможете безопасно хранить, обменивать и выводить валюту любого происхождения. Будет доступно несколько типов банковских карт и услуг:

✔️ Для оплаты в интернете (проходит 95% сервисов)
✔️ Для оплаты в интернете + оффлайн сервисы (проходят все сервисы). Оплата путем пейпасс.
✔️ Снятие наличных денег. Это когда вы получаете физическую карту и используете ее, как обычно.

➡️ Подробнее о сервисе
 

Стоит ли скачивать абсолютному новичку в программировании?
В этом курсе нет обучения основам python, поэтому лучше уже знать базовые вещи, типа функции, циклы, условия, как работать со словарями, списками.
 

в регулярках нет надобности?
У супа, как я понял, своя модель данных, регулярки не нужны.
Мне только сильно не нравится, что этот метод парсинга даже не предполагает браузер, а самая ценная инфа обычно скрыта от тупых запросов и аякс тут не причем.
Например, Пинтерест подгружает данные постранично, и как такое спарсить?
 

"метод парсинга даже не предполагает браузер" - это втягивает страницу с помощью curl или подобных команд?
"Пинтерест подгружает данные постранично" - кстати да, как в таком случае использовать эту библиотеку? Нужна имитация "скролинга" или она позволяет кк то работать с такими сайтами?
 

это втягивает страницу с помощью curl или подобных команд?
Там свои реквесты, не курл.
Да Пинтерест фигня, самый лучший контент сейчас в закрытых форумах и соц. сетях, и как его парсить Питоном? Может быть и можно, нужно браузером входить, сохранять куки, хэдеры и уж потом делать запросы, но вряд ли автор курса об этом расскажет.

Просто он говорит мол потом фрилансом всегда заработаете на заказах парсинга. И вот уверен половина заказов будет такая, что питон не справится, а Зенка везде справится 100%
 

Там свои реквесты, не курл.
Может быть и можно, нужно браузером входить, сохранять куки, хэдеры и уж потом делать запросы, но вряд ли автор курса об этом расскажет.
Да, в курсе есть моменты, о которых не упомянули. Все остальное приходится искать самому и читать документацию.
Модуль requests умеет автоматически работать с куками, и сохранять и обновлять.
Код:
import requests
session = requests.Session()
fake_headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; rv:52.0) Gecko/20100101 Firefox/52.0',
        'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
        'Accept-Encoding': 'gzip, deflate',
        'Referer': 'google.com',
        'Connection': 'keep-alive',
        }
session.headers.update(fake_headers)

with session:
    resp = session.get('https://mail.ru')
    print('Заголовки ответа сервера\n', resp.headers)
    print('\nКуки mail.ru\n', session.cookies)
    session.cookies.set('new', '12345678', domain='.mail.ru', path='/')
    print('\nНовые куки mail.ru\n', session.cookies)
 

Последнее редактирование:
Модуль requests умеет автоматически работать с куками, и сохранять и обновлять.
Интересно, уже кое что.
А если ему подсунуть кукисы ФБ, сможет парсить группы?
 

А вообще интересный курс. Не совсем для новичков, но вот я в Питоне почти ноль, пару раз скрипты правил. Но с интересом смотрю как работает автор. Два видоса зашло очень хорошо. Для сравнения из, грубо говоря 20 скачанных курсов за последний месяц, такого интереса у меня никто не вызвал. Хотя тема меня интересует чисто ради самообразования.
 

Интересно, уже кое что.
А если ему подсунуть кукисы ФБ, сможет парсить группы?
скорее всего сможет, я пробовал парсить email с групп "мой мир", единственное, что приходилось постоянно менять прокси, потому что даже с паузами между запросами, через какое-то количество запросов майлру начинает выкидывать капчу.
 

скорее всего сможет, я пробовал парсить email с групп "мой мир", единственное, что приходилось постоянно менять прокси, потому что даже с паузами между запросами, через какое-то количество запросов майлру начинает выкидывать капчу.
Странно, я купил шаблон Зенно для этого же и никаких прокси. Тысячи мейлов за пару минут.
 


Стоит ли скачивать абсолютному новичку в программировании?
На питоне необязательно быть спецом, здесь нет особого ооп, можно сразу начинать парсеры делать
 

Посмотрел Курс. Что сказать - автор молодчина! У него дар к преподаванию. Всё четко и структурно разложено и объяснено. В конце каждого урока он делает результирующий обзор того, что было сделано за урок. Все бы авторы так делали, берите с него пример.
 

Посмотрел Курс. Что сказать - автор молодчина! У него дар к преподаванию. Всё четко и структурно разложено и объяснено. В конце каждого урока он делает результирующий обзор того, что было сделано за урок. Все бы авторы так делали, берите с него пример.
Да, согласен, я бы с удовольствием ещё его уроков посмотрел.
 

Please note, if you want to make a deal with this user, that it is blocked.
Олег Молчанов - один из самых крутых авторов на русскоязычном YouTube. Пересмотрел все его видео на канале (и этот курс по парсингу тоже). Объясняет очень внятно и доходчиво.
 

Обратите внимание

Назад
Сверху