Требуется помощь Создание парсеров

Major

Premium Lite
Регистрация
27 Май 2015
Сообщения
21
Реакции
2
Другие темы автора:
Всем привет. Ребят помогите, пожалуйста. Я хотел бы научиться создавать парсеры сайтов, чтобы собирать данные со статистических ресурсов и анализировать их. Я полный нуль в программировании, но хотел бы попробовать освоить какой-нибудь язык. Какой язык подходит лучше всего для создания парсеров?
Буду признателен за любую помощь в данном вопросе))
 

Я не скажу точно, но я учу php, и вполне себе справляюсь с парсингом сайтов. Сейчас даже начала парсить уже с авторизацией, куками, мультипарсингом, и всякими плюшками.
Ну если решишь учить php, то там нужно знать основы только, чтобы парсить динамические сайты. Ну основы, и + регулярные выражения.

Или в интернете существуют на php Отдельные библиотеки, с помощью которых можно заниматься парсингом, не зная регулярок ;)
 

Я не скажу точно, но я учу php, и вполне себе справляюсь с парсингом сайтов. Сейчас даже начала парсить уже с авторизацией, куками, мультипарсингом, и всякими плюшками.
Ну если решишь учить php, то там нужно знать основы только, чтобы парсить динамические сайты. Ну основы, и + регулярные выражения.

Или в интернете существуют на php Отдельные библиотеки, с помощью которых можно заниматься парсингом, не зная регулярок ;)
Спасибо. А можно как-то собранные данные перемещать в exel, чтобы потом было их удобно анализировать?
 

Спасибо. А можно как-то собранные данные перемещать в exel, чтобы потом было их удобно анализировать?
Да, в php есть отдельная библиотека для работы с excell-таблицами. Можно и в файл запихнуть информацию, которую ты спарсил, можно в бд, таблицу excell. Короче много что можно сделать, главное - учить, и знать как оно всё работает))
 

Да, в php есть отдельная библиотека для работы с excell-таблицами. Можно и в файл запихнуть информацию, которую ты спарсил, можно в бд, таблицу excell. Короче много что можно сделать, главное - учить, и знать как оно всё работает))
Спасибо большое. А ты по курсу какому-нибудь изучаешь или самостоятельно с помощью google?
 

Спасибо большое. А ты по курсу какому-нибудь изучаешь или самостоятельно с помощью google?
Начинал изучать с книги. Читал книгу, параллельно повторял у себя на ноуте, и делал краткий конспект. Потом на форумах тематических общался, копался в чужих скриптах, и конечно, сам писал, попутно спрашивая у мастеров интересующие вопросы))

Сейчас основы выучил, и теперь углубляюсь в познание языка, тут уже больше курсы смотрю. Но говорят, что курсы от специалиста нормальные.
Но хз, я бы советовал начать читать книгу, и по ней практиковаться
 

Тут просто к каждому индивидуальный подход. Кому как лучше (курсы, или книги). Просто мне изначально было сложно сориентироваться по курсам, потому остановил выбор на книге. А в книгах было самое то.
Если тебе удобнее учить по курсам. То советую специалиста:)
 

О может подскажите как можно спарсить товары и импортировать в опенкарт с атрибутами и всеми делами, был бы очень признателен)
 

О может подскажите как можно спарсить товары и импортировать в опенкарт с атрибутами и всеми делами, был бы очень признателен)
Откуда парсить? С какого сайта?
И импортировать в бд нужно?
 


спарсить товары надо с этого сайта promatras.by в cvs excel пробовал датаколом, но не как не могу его осилить)
Ну товары я понял, тут можно спарсить. А оценки какие нужно?
 

В смысле оценки?
ой, не так прочитал сообщение. С атрибутами было написано.

Ну можно с помощью библиотеки - PHP Simple HTML DOM Parser, или любой другой, сам не пользуюсь библиотеками.

Сам пользуюсь дефолтными средствами php.
Получаю страницу с помощью file_get_contents(), начинаю с первой страницы, и добавляю по одной через цикл:
http://promatras.by/matrasy/?page=1,2,3...

И с помощью регулярных выражений достаю ссылки на сам товар и название, добавляю, например в бд, или файл.
Тут половина работы уже выполнена.

Теперь предстоит поочередно извлекать ссылки (из бд, или файла, куда перед этим всё сохранялось), и с них доставать уже информацию индивидуально (нужные атрибуты), тоже всё проделывается с помощью file_get_contents(), регулярок, и потом уже найденные параметры, каждый раз сохраняешь в бд
 

ой, не так прочитал сообщение. С атрибутами было написано.

Ну можно с помощью библиотеки - PHP Simple HTML DOM Parser, или любой другой, сам не пользуюсь библиотеками.

Сам пользуюсь дефолтными средствами php.
Получаю страницу с помощью file_get_contents(), начинаю с первой страницы, и добавляю по одной через цикл:
http://promatras.by/matrasy/?page=1,2,3...

И с помощью регулярных выражений достаю ссылки на сам товар и название, добавляю, например в бд, или файл.
Тут половина работы уже выполнена.

Теперь предстоит поочередно извлекать ссылки (из бд, или файла, куда перед этим всё сохранялось), и с них доставать уже информацию индивидуально (нужные атрибуты), тоже всё проделывается с помощью file_get_contents(), регулярок, и потом уже найденные параметры, каждый раз сохраняешь в бд
Спасибо, завтра попробую разобраться)
 

Обратите внимание

Похожие темы

Назад
Сверху