Роҳнамои Semalt дар бораи васеъкунии скреперҳо барои Chrome

Барои он ки ҳама гуна тиҷорат зинда монад ва дар ниҳояти кор ривоҷ ёбад, бояд аз рақибон ва хатарҳои мухталиф дар пеш қарор гирад. Қабули қарорҳо дар асоси маълумоти таҳлилӣ роҳи дурусти фаромӯш кардани ин мушкилот мебошад. Чунин маълумотро тавассути скрапти маълумот гирифтан мумкин аст. Маҳз дар ин ҷо васеъкунии скреперҳо барои Chrome меоянд: он на танҳо раванди ҷамъоварии маълумотро осон менамояд, балки имкон медиҳад, ки бе танзимоти мураккаб дар роҳ рафтан гиред.

Тарзи истифодаи Scraper

    1. Аввалин чизе, ки ба шумо лозим аст, ин насб кардани тамдиди аст, бинобар ин ба мағозаи интернетии chrome гузаред, "scraper" -ро ҷустуҷӯ кунед ва илова ба Chrome -ро клик кунед.

    2. Ба вебсайте муроҷиат кунед, ки мехоҳед аз он маълумотро нест кунед , вурудро, ки ба шумо маъқул аст, қайд кунед. Онро рост клик кунед ва дар менюи пайдошуда "scrape similar" -ро интихоб кунед.

    3. Иҷрои ин амал тирезаи алоҳидаи скреперҳоро оғоз мекунад. Дар ин ҷо, шумо рӯйхати маълумотҳои шикасташударо хоҳед дид.

    4. Барои захира кардани мундариҷа, "захира ба ҳуҷҷатҳои Google" -ро клик кунед, ки ин ба таври худкор маълумотро ба ҷадвали Google содир мекунад.

Кашидани васеъкунӣ

Дар сурати ба нақша гирифтани шумораи бештари маълумот, шумо метавонед равиши пешрафтаро истифода баред. Дар хотир доред, ки агар шумо дониши HTML дошта бошед, кор кардан бо асбоб осонтар хоҳад буд. Фарз мекунем, ки шумо мехоҳед маълумотро аз манбаъе, ки дар асоси як қатор вақтҳо бойгонӣ дорад, нусхабардорӣ кунед. Дар ин ҳолат, агар шумо усули дар боло тавсифшударо бисанҷед, шумо маълумоти ғалатро мегиред.

Барои ҳалли ин масъала, шумо метавонед як забони HTML ва XML дархости XPath-ро истифода баред. Ин чӣ кор мекунад? XPath маълумотро дар бораи унсурҳои мухталиф дар ҳар як интихоб эътироф мекунад. Дар зер дастур оид ба тарзи рафтан ба он оварда шудааст:

1. Ба консоли Scraper равед, дар тарафи чапи боло шумо бояд тугмаи "XPath" -ро пайхас кунед, клик кунед ва ҷадвали ибтидоиро идома диҳед.

2. Шумо бояд XPathро барои унсури мувофиқ нависед. XPath -и ҷорӣ, ки тамоми маълумотро дар бар мегирад, дар чунин шакли "// div [3] / div [3] / div [2] / div" намоиш дода мешавад. Унсурҳои <div> дар ҳуҷҷати HTML тавассути компютер шинохта мешаванд.

3. Барои ҷудо кардани маълумоти эътирофшуда, шумо бояд сутунҳои Scraper-ро истифода баред. Барои ин, шумо бояд намудҳои гуногуни маълумоти дастрасро ҷустуҷӯ кунед. Вобаста аз маълумоте, ки шумо парма мекунед, шумо метавонед унвонҳо дошта бошед. Ин унвонҳо дар назди ҳар як маҷмӯи маълумотҳо мавҷуданд. Онҳо бо барчасп ҳамроҳ карда мешаванд, дар ин ҳолат <b> барчасп.

4. Бо истифодаи унсури тафтиш инспекторро <b> XPath –ро ҷойгир кунед ва илова кунед. Ҳоло шумо метавонед ин сутуни аввалро ҳамчун "сутуни унвон" номгузорӣ кунед, зеро он унвонҳоро зер мекунад. Барои ҳар як сутуне, ки ба шумо лозим аст, сохтани XPath-ҳои гуногунро давом диҳед.

5. Скреперро клик кунед ва васеъкунӣ маълумотро ба таври худкор ҷамъ меорад ва онро дар сутунҳои мухталифи муқарраркардаатон ташкил мекунад.