Semalt: 3 soļi uz PHP Web lapu nokasīšanu

Tīmekļa nokasīšana, ko sauc arī par tīmekļa datu ieguvi vai apkopošanu tīmeklī, ir datu ieguves process no vietnes vai emuāra. Pēc tam šī informācija tiek izmantota, lai iestatītu meta tagus, meta aprakstus, atslēgvārdus un saites uz vietni, uzlabojot tās kopējo veiktspēju meklētājprogrammas rezultātos.

Datu nokasīšanai tiek izmantoti divi galvenie paņēmieni:

  • Dokumentu parsēšana - tas ietver XML vai HTML dokumentu, kas tiek pārveidots par DOM (Document Object Model) failiem. PHP nodrošina mūs ar lielisku DOM paplašinājumu.
  • Regulāras izteiksmes - tas ir veids, kā no tīmekļa dokumentiem nokasīt datus regulāru izteiksmju veidā.

Trešās puses vietnes datu nokasīšanas problēma ir saistīta ar tās autortiesībām, jo jums nav atļaujas izmantot šos datus. Bet, izmantojot PHP, jūs varat viegli nokasīt datus bez problēmām, kas saistītas ar autortiesībām vai zemu kvalitāti. Kā PHP programmētājam kodēšanas nolūkos var būt nepieciešami dati no dažādām vietnēm. Šeit mēs esam izskaidrojuši, kā efektīvi iegūt datus no citām vietnēm, taču pirms tam jums jāpatur prātā, ka beigās jūs iegūsit vai nu index.php, vai scrape.js failus.

1. darbība: izveidojiet veidlapu vietnes URL ievadīšanai:

Pirmkārt, jums vajadzētu izveidot veidlapu index.php, noklikšķinot uz pogas Iesniegt un ievadīt vietnes URL datu nokasīšanai.

<form method = "post" name = "scrape_form" id = "scrap_form" acti>

Ievadiet vietnes URL, lai nokasītu datus

<input type = "input" name = "website_url" id = "website_url">

<input type = "iesniegt" name = "iesniegt" value = "Iesniegt">

</form>

2. darbība: izveidojiet PHP funkciju vietnes datu iegūšanai:

Otrais solis ir izveidot PHP funkciju skrāpējumus scrape.php failā, jo tas palīdzēs iegūt datus un izmantot URL bibliotēku. Tas arī ļaus bez problēmām izveidot savienojumu un sazināties ar dažādiem serveriem un protokoliem.

funkcija scrapeSiteData ($ vietne_url) {

if (! function_exists ('curl_init')) {

die ('CURL nav instalēts. Lūdzu, instalējiet un mēģiniet vēlreiz.');

}

$ curl = curl_init ();

curl_setopt ($ curl, CURLOPT_URL, $ website_url);

curl_setopt ($ čokurošanās, CURLOPT_RETURNTRANSFER, taisnība);

$ output = curl_exec ($ curl);

curl_close ($ čokurošanās);

atgriezt $ produkciju;

}

Šeit mēs redzam, vai PHP cURL ir instalēts pareizi. Funkciju apgabalā jāizmanto trīs galvenie cURL, un curl_init () palīdzēs inicializēt sesijas, curl_exec () to izpildīs un curl_close () palīdzēs slēgt savienojumu. Mainīgos lielumus, piemēram, CURLOPT_URL, izmanto, lai iestatītu vietnes URL, kas mums jānokopē. Otrais CURLOPT_RETURNTRANSFER palīdzēs nokasītās lapas saglabāt mainīgā formā, nevis noklusējuma formā, kas galu galā parādīs visu tīmekļa lapu.

3. darbība: nokopējiet īpašus datus no vietnes:

Ir pienācis laiks rīkoties ar jūsu PHP faila funkcijām un nokasīt konkrēto jūsu vietnes sadaļu. Ja nevēlaties visus datus no noteikta URL, rediģējiet, izmantojot mainīgos CURLOPT_RETURNTRANSFER, un iezīmējiet sadaļas, kuras vēlaties nokasīt.

if (isset ($ _ POST ['iesniegt'])) {

$ html = scrapeWebsiteData ($ _ POST ['website_url']);

$ start_point = strpos ($ html, 'Jaunākās ziņas');

$ end_point = strpos ($ html, '', $ start_point);

$ garums = $ beigu punkts- $ sākuma_ punkts;

$ html = substr ($ html, $ start_point, $ length);

echo $ html;

}

Mēs iesakām pirms PHP un parasto izteiksmju pamatzināšanu attīstīšanas, pirms izmantojat kādu no šiem kodiem vai nokasāt noteiktu emuāru vai vietni personīgiem mērķiem.