Программирование Практический курс парсинга сайтов на Python

Практический курс парсинга сайтов на Python
14 Видео

Как анализировать верстку и запросы к сайтам разной сложности. Как писать парсеры

13 Парсеров
Для сайтов разной сложности, которые вы напишете по мере прохождения курса

Что вы получаете

Экономию времени
на поиске обучающих материалов и оптимального решения конкретной задачи. Здесь собраны основные проблемы парсинга сайтов, встречающиеся в реальной жизни.

Подробные объяснения каждой детали процесса и многократные повторения заставят ваш мозг эффективнее запоминать материал.

Опыт и достаточное количество практики парсинга сайтов. В течение всего курса вы напишете 13 парсеров - это хорошая практика, которой так не хватает новичкам.

Программа курса
То, что нужно начинающему питонисту для начала профессиональной деятельности

  • Основы BeautifulSoup
  • Парсинг табличных данных
  • Работа с пагинацией (2 вида)
  • Чтение и запись данных в CSV
  • Запись данных в PostgreSQL
  • Продвинутые методы работы с BeautifulSoup

  • Парсинг данных, подгружаемых при помощи AJAX (2 видео)
  • Парсинг в несколько процессов
  • Использование прокси
  • Парсинг данных, подгружаемых JQuery
  • Смена User-Agent
Этот курс для вас, если:
  • Вы проработали хоть какой-нибудь туториал по Python и знаете основы языка (списки, словари, циклы, функции
  • На базовом уровне вы знаете HTML
  • Вы думающий человек, который готов разбираться в своем коде и отрабатывать свои ошибки

Продажник:
[HIDE="0"] [/HIDE]
Скачать:
 

Последнее редактирование:
Рекламное сообщение
📈 Хотите влиться в мир криптотрейдинга, но нет знаний? Доверьте это профессионалам!

Выбрав наш сервис, вы даете возможность торговать криптовалютами нам на вашем аккаунте. Используем только проверенные сигналы проверенных трейдеров. Проверяем каждый сигнал перед отправкой в работу.

Выбрав копитрейд сервис, вы вкладываетесь в криптовалюты, но только в те, которые имеют реальный шанс принести доход.

Все что вам остается - это включать бота и разрешить ему торговлю.

➡️ Подробнее
 

Стоит ли скачивать абсолютному новичку в программировании?
В этом курсе нет обучения основам python, поэтому лучше уже знать базовые вещи, типа функции, циклы, условия, как работать со словарями, списками.
 

в регулярках нет надобности?
У супа, как я понял, своя модель данных, регулярки не нужны.
Мне только сильно не нравится, что этот метод парсинга даже не предполагает браузер, а самая ценная инфа обычно скрыта от тупых запросов и аякс тут не причем.
Например, Пинтерест подгружает данные постранично, и как такое спарсить?
 

"метод парсинга даже не предполагает браузер" - это втягивает страницу с помощью curl или подобных команд?
"Пинтерест подгружает данные постранично" - кстати да, как в таком случае использовать эту библиотеку? Нужна имитация "скролинга" или она позволяет кк то работать с такими сайтами?
 

это втягивает страницу с помощью curl или подобных команд?
Там свои реквесты, не курл.
Да Пинтерест фигня, самый лучший контент сейчас в закрытых форумах и соц. сетях, и как его парсить Питоном? Может быть и можно, нужно браузером входить, сохранять куки, хэдеры и уж потом делать запросы, но вряд ли автор курса об этом расскажет.

Просто он говорит мол потом фрилансом всегда заработаете на заказах парсинга. И вот уверен половина заказов будет такая, что питон не справится, а Зенка везде справится 100%
 

Там свои реквесты, не курл.
Может быть и можно, нужно браузером входить, сохранять куки, хэдеры и уж потом делать запросы, но вряд ли автор курса об этом расскажет.
Да, в курсе есть моменты, о которых не упомянули. Все остальное приходится искать самому и читать документацию.
Модуль requests умеет автоматически работать с куками, и сохранять и обновлять.
Код:
import requests
session = requests.Session()
fake_headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; rv:52.0) Gecko/20100101 Firefox/52.0',
        'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
        'Accept-Encoding': 'gzip, deflate',
        'Referer': 'google.com',
        'Connection': 'keep-alive',
        }
session.headers.update(fake_headers)

with session:
    resp = session.get('https://mail.ru')
    print('Заголовки ответа сервера\n', resp.headers)
    print('\nКуки mail.ru\n', session.cookies)
    session.cookies.set('new', '12345678', domain='.mail.ru', path='/')
    print('\nНовые куки mail.ru\n', session.cookies)
 

Последнее редактирование:
Модуль requests умеет автоматически работать с куками, и сохранять и обновлять.
Интересно, уже кое что.
А если ему подсунуть кукисы ФБ, сможет парсить группы?
 

А вообще интересный курс. Не совсем для новичков, но вот я в Питоне почти ноль, пару раз скрипты правил. Но с интересом смотрю как работает автор. Два видоса зашло очень хорошо. Для сравнения из, грубо говоря 20 скачанных курсов за последний месяц, такого интереса у меня никто не вызвал. Хотя тема меня интересует чисто ради самообразования.
 

Интересно, уже кое что.
А если ему подсунуть кукисы ФБ, сможет парсить группы?
скорее всего сможет, я пробовал парсить email с групп "мой мир", единственное, что приходилось постоянно менять прокси, потому что даже с паузами между запросами, через какое-то количество запросов майлру начинает выкидывать капчу.
 

скорее всего сможет, я пробовал парсить email с групп "мой мир", единственное, что приходилось постоянно менять прокси, потому что даже с паузами между запросами, через какое-то количество запросов майлру начинает выкидывать капчу.
Странно, я купил шаблон Зенно для этого же и никаких прокси. Тысячи мейлов за пару минут.
 


Стоит ли скачивать абсолютному новичку в программировании?
На питоне необязательно быть спецом, здесь нет особого ооп, можно сразу начинать парсеры делать
 

Посмотрел Курс. Что сказать - автор молодчина! У него дар к преподаванию. Всё четко и структурно разложено и объяснено. В конце каждого урока он делает результирующий обзор того, что было сделано за урок. Все бы авторы так делали, берите с него пример.
 

Посмотрел Курс. Что сказать - автор молодчина! У него дар к преподаванию. Всё четко и структурно разложено и объяснено. В конце каждого урока он делает результирующий обзор того, что было сделано за урок. Все бы авторы так делали, берите с него пример.
Да, согласен, я бы с удовольствием ещё его уроков посмотрел.
 

Please note, if you want to make a deal with this user, that it is blocked.
Олег Молчанов - один из самых крутых авторов на русскоязычном YouTube. Пересмотрел все его видео на канале (и этот курс по парсингу тоже). Объясняет очень внятно и доходчиво.
 

Обратите внимание

Назад
Сверху