DEV Community

Octoparse Español
Octoparse Español

Posted on

Movie Crawler: Scraping más de 100,000 información de películas

Los datos de las películas registran las preferencias del público y su actitud hacia determinadas cosas. Recopilar la información de la película de sitios web relacionados, como IMDb y Rotten Tomatoes, contribuirá al análisis de datos y a la data mining en la industria cinematográfica. En términos generales, los datos extraídos se pueden emplear en algún escenario:

  1. Analizar las características del público objetivo
  2. Obtener opiniones públicas para predecir las próximas tendencias.
  3. Ayudando a impulsar la Publicidad

Todavía hay más cosas que podemos hacer con los datos de la película según las necesidades. Para ayudarlo a completar la recopilación de datos, este artículo presentará cómo extraer la información de la lista de películas de terror de IMDb, incluida la información del director, el elenco de actores y otra información importante.

En este caso, le mostraré cómo extraer la información de la película de terror 134,555 de IMDb, usando el enlace:

https://www.imdb.com/search/title/?genres=horror&start=51&explore=title_type,genres&ref_=adv_nxt

El objetivo de este web scraper es encontrar películas que figuran en la lista de películas de terror, obtener información del director, el elenco de actores y otra información importante.

Antes de comenzar, descargue Octoparse V7 en su computadora para realizar un seguimiento. Además, es muy recomendable aprender la lógica básica del uso de Octoparse.

¡Empecemos!

Paso 1: Abra el sitio web de destino en el navegador incorporado de Octoparse.

Simplemente haga clic en "+ tarea" en el modo avanzado.

Luego, pegue la URL en el cuadro y haga clic en el botón "Save URL".

Paso 2: Haga clic para crear una tarea para scrape la información de la película.

Después de abrir el URL en el navegador incorporado de Octoparse, podemos continuar creando una paginación y un elemento de bucle para obtener los datos.

Simplemente haga clic en el elemento "siguiente>>" en el navegador integrado y luego haga clic en "Hacer clic en el elemento seleccionado en bucle" en Action Tips.

Podemos ver que la paginación se ha creado en el flujo de trabajo.

Si desea que Octoparse reconozca el elemento que seleccionó con mayor precisión, simplemente puede revisar XPath. Como podemos ver en la imagen de abajo, el XPath que generó Octoparse es //DIV[@class='nav']/DIV[2]/A[2]. Será mejor que lo cambiemos a //a[contains(text(), "Next »")].

En este caso, necesitamos extraer los datos de la lista de películas, que dice, podemos crear directamente un elemento de bucle para extraer los datos.

Seleccione uno de los "bloques" en el navegador, Octoparse puede detectar todos los campos de datos en el blog que seleccionó.

Luego, seleccione“ Seleccionar todos los subelementos”.

Octoparse estaba selecciona todos los datos necesarios y los resalta en rojo. Seleccione “Select All” para continuar.

Finalmente, seleccionamos “Extraer datos en el bucle”.

Ahora, tenemos tanto la paginación como el elemento de bucle hecho en Octoparse. Podemos ver el flujo de trabajo de la tarea en el lado izquierdo y los datos que se muestran en el lado derecho.

Paso 3: Limpia los datos en Octoparse.

Antes de extraer datos, es mejor que limpiemos los datos para mejorar nuestro resultado final. Simplemente necesita hacer clic para eliminar el campo no deseado y cambiar el nombre de la descripción que necesita

Paso 4: Extraer datos

Simplemente haga clic en "Extraer datos" para obtener los datos localmente.

Como la extracción local utiliza sus propios recursos informáticos, como la CPU, la velocidad de Internet, funciona más lento que el uso de la extracción en la nube Octoparse.

De todos modos, después de crear el scraper, lo que debe hacer es esperar y obtener los datos, más de 100,000 líneas de datos de películas en aproximadamente 2 horas.

Con los pasos anteriores, supongo, todos, incluidos aquellos que no tienen experiencia en programación, pueden construir fácilmente un crawler de películas con Octoparse V7 y obtener más de 100,000 líneas de información de la película. Sin embargo, esa no es la forma más sencilla. Usar Octoparse V8 podría ser mucho más fácil:

En general, con el data scraping, podemos obtener datos de películas en línea sobre cualquier tema legal.

Aparte de los datos, lo más importante es la habilidad que aprendió, que es extremadamente útil para hacer la investigación de mercado, mantenerse actualizado y muchas otras cosas.

Top comments (0)