Today is my 78th day Of #100daysofcode and #python learning journey. Like yesterday today also keep learning from DataCamp for some time.
I spend more time on my project. Being the newbie, I needed more time to write even simple code. I think this is not only my problem. This problem is usually for all newbies. Today I was able to complete some part of my project. Below is my updated code for today.
Python Code
Today I scrape news of province field of Gorkhapatra news portal. After many attempt, I was finally able to write the code.
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import re
from bs4 import BeautifulSoup as BS
import requests
import urllib3
Here is url for a page,
url = "https://gorkhapatraonline.com/province"
Main code is,
ndict = {'Title': [], "Title URL": [], "Date":[],
"Author":[], "Author URL":[], "Content":[],"Category": [],"Description": []}
for feature1 in soup.select(".feature1"):
# feature1 = soup.select_one(".feature1")
news_url = feature1.a.get("href")
# news_url
# title =
date=feature1.select_one(".feature-text").small.text.strip()
title = feature1.select_one(".feature-text").text.strip().split("\n")[0]
description = None
category = url.split('/')[-1]
news_page = http.request('GET', news_url)
news_soup = BS(news_page.data, "html5lib")
# print(news_url)
author_url = news_soup.select_one(".post-author-name").a.get("href")
if len(news_soup.select_one(".newstext").find("p").find("strong").text.split(" ")) < 6:
author = news_soup.select_one(".newstext").find("p").find("strong").text
else:
author = None
# print(author)
# break
content=""
for p in news_soup.select_one(".newstext").findAll("p"):
# print(p.text.split("गते । ")[-1])
content+=p.text.split("गते । ")[-1]+"\n"
ndict["Title"].append(title)
ndict["Title URL"].append(news_url)
ndict["Author"].append(author)
ndict["Author URL"].append(content)
ndict["Content"].append(news_url)
ndict["Category"].append(category)
ndict["Date"].append(date)
print(f"""
Title: {title}, Title URL: {news_url},
Date: {date}, Author: {author},
Category :{category} ,
Author URL: {author_url},
Content: {content}
""")
Output of above code is,
Title: कञ्चनपुर-कमला राष्ट्रिय राजमार्ग चार लेन निर्माण शुरु, Title URL: https://gorkhapatraonline.com/economics/2021-03-17-33886,
Date: चैत्र ४, २०७७ बुधबार, Author: जिवछ यादव ,
Category :province ,
Author URL: https://gorkhapatraonline.com/author_news/3,
Content: कञ्चनपुर कमला राष्ट्रिय राजमार्गको चार लेन निर्माण कार्य लहान नगरपालिका क्षेत्रमा तीव्र गतिमा अगाडि बढिररहेको छ । कुल ८७ किलोमिटर मध्ये लाहान क्षेत्रमा पर्ने पाँच किलोमिटर सडकको निर्माण वर्षा लाग्नुभन्दा अगावै सक्ने गरी काम अगाडि बढाइएको छ । सडक निर्माण कार्य अघि वढेपछि स्थानीय खुसी छन् । कञ्चनपुर कमला परियो्जना अन्तगर्त दुई प्याकेजमा काम सञ्चालन गरिएको परियोजनाका सुपरीक्षक अनिल ढुङगानाले जानकारी दिँदै कुनै बाधा अडचन नभए र यही गतिमा काम अगाडि बढिरहे निर्धारित तीन वर्षभित्रमा सप्तरीको कञ्चनपुर र सिरहाको कमलासम्म करिब ८७ किलोमिटर निर्माणकार्य सम्पन्न हुने बताउनुभयो । उहाँको अनुसार अहिले सिरहाको दुई ठाँउबाट र सप्तरीको रुपनीबाट दुई प्याकेजमा निर्माण कार्य अघि बढाउने लक्ष्य अनुसार काम भइरहेको छ । लहान क्षेत्रमा पाँच किलोमिटर राष्ट्रिय मार्गमा दुबैतिरबाट माटो पुर्ने र रुख कटान काम अघि बढेको हो । बलान नदीमा १२ मिटर चौडाइको पुल निर्माण कार्यको थालनी गर्न तयारी भइरहेको छ । लहान नगरपालिकामा ओभर फलाईङग पुल र तलबाट सडक निर्माणकार्यलाई वर्षातपछि गरिने सुपरीक्षक ढुङगानाले प्रष्टयाउदै बजार क्षेत्रमा प्रवेश गरेपछि निर्माण कार्यलाई झन् गति दिएर गर्नुपर्ने जानकारी दिनुभयो । राष्ट्रिय राजमार्गसँग जोडिएका सिरहा सप्तरी दुबै जिल्लाका स्थानीय तह पालिकाहरुसँग समन्वय गरेर कार्य अघि बढाँउदा स्थानीय तहहरुबाट निकै सहयोग हुँदा निर्माण कार्य सहज भइरहेको उहाँले बताउनुभयो । राष्ट्रिय राजमार्गलाई विस्तार गर्न चाइना रेलवे –२ ले निर्माण कार्यलाई लहान क्षेत्रमा गति दिएको लाहान नगरप्रमुख मुनि साहले भन्नुहुँदै चार लेनको सडक निर्माण सुरु भैसकेकपछि स्थानीयमा उत्साह थपिएको छ ।
Title: डेढ वर्षदेखि यारी नाका भन्सार कार्यालय बन्द, Title URL: https://gorkhapatraonline.com/province/2021-03-17-33882,
Date: चैत्र ४, २०७७ बुधबार, Author: राजन रावत ,
Category :province ,
Author URL: https://gorkhapatraonline.com/author_news/3,
Content: डेढ वर्षदखि चीनसँगको सिमाना यारी नाका भन्सार कार्यालय बन्द रहँदै आएको छ । हिल्सामा स्थापना भएको उक्त भन्सार कार्यालय २०७६ कातिकपछि बन्द रहँदै आएको हो ।
हिउँदमा बन्द रहने उक्त भन्सार कार्यालय २०७७ सालमा कोरोना कहरको कारण देखाउदै कार्यालय कर्मचारी जिल्लामा नआएपछि हिल्साको कार्यालय बन्द रहँदै आएको कोष तथा लेखा नियन्त्रण कार्यालयका प्रमुख नविन बिकले बताउनुभयो ।
चीनले काेरोनाको कारण नाका बन्द गरे पनि अन्य सुरक्षा निकाय भने हिल्सामा चौकीमा बस्दै आएको भए पनि भन्सार भने बन्द रहेको उहाँले बताउनुभयो । हाल कोलेनिकामा एक जना कार्यालय सहयोगी कर्मचारी मात्र भएको र अन्य कर्मचारीको कुनै पत्तो नभएको उहाँले बताउनुभयो । हिल्सामा भन्सार कार्यालय भाडाको घरमा बस्दै आएको छ । कोरोनाका बीच पनि चीनबाट चार वटा टिप्परमा ब्यापारिक सामान आएको थियो । हिल्सामै स्थापना भएको अध्यागमन कार्यालय पनि डेढ वर्ष दखि बन्द रहँदै आएको छ ।
Title: गाउँमा पसेको हात्ती धपाउने क्रममा दुई जना घाइते, Title URL: https://gorkhapatraonline.com/province/2021-03-17-33881,
Date: चैत्र ४, २०७७ बुधबार, Author: झापा, चैत ४ गते ।,
Category :province ,
Author URL: https://gorkhapatraonline.com/author_news/2,
Content: जङ्गली हात्तीको आक्रमणमा परी बुद्धशान्ति गाउँपालिका–२ मा आज बिहान दुई जना घाइते भएका छन् । घाइते हुनेमा इलाम देउमाई नगरपालिका–१० ढोडेनी बस्ने १९ वर्षीय कृतिमान खाती र अर्जुनधारा नगरपालिका–१ सिस्ने बस्ने १९ वर्षीय मिलन कार्की डोली रहेको प्रहरीले जनाएको छ ।
उनीहरूमध्ये खातीको बिर्तामोडस्थित बिर्तासिटी अस्पताल र डोलीको लिभिङ होम पोलिक्लिनिक बुधबारेमा उपचार भइरहेको छ । प्रहरीका अनुसार खाती गम्भीर घाइते छन् । उनको हात र छातीमा चोट लागेको र बोल्न नसक्ने अवस्थामा छन् भने डोली सामान्य घाइते छन् । उनीहरू दुवै श्रमिक हुन् । आज बिहान ७ः०० बजे गाउँमा पसेको हात्ती धपाउने क्रममा उनीहरू घाइते भएको जिल्ला प्रहरी कार्यालय झापाका प्रवक्ता राकेश थापाले जानकारी दिनुभयो ।
Title: गैँडा गणनाको तयारी गरिँदै, Title URL: https://gorkhapatraonline.com/province/2021-03-17-33878,
Date: चैत्र ४, २०७७ बुधबार, Author: None,
Category :province ,
Author URL: https://gorkhapatraonline.com/author_news/2,
Content: यही चैत ९ गतेदेखि शुरु गर्न लागिएको राष्ट्रिय गैँडा गणनाको तयारी तीव्र पारिएको छ । चितवन र पर्सा राष्ट्रिय निकुञ्जको गणना एकैसाथ शुरु गरिँदै छ । पर्सा राष्ट्रिय निकुञ्जमा पर्ने प्रतापपुरबाट गणना शुरु गरिनेछ । गणनाको सम्पूर्ण तयारी चितवन राष्ट्रिय निकुञ्जमा नै भइरहेको छ । चितवन र पर्सालाई एउटा ब्लक बनाइएको छ । गैँडा रहेका अन्य दुई राष्ट्रिय निकुञ्जमध्ये बर्दियामा चैत १७ गतेदेखि र शुक्लाफाँटामा १९ गतेदेखि गणना शुरु गरिँदै छ । चितवन राष्ट्रिय निकुञ्जका प्रमुख संरक्षण अधिकृत अणनाथ बरालका अनुसार हात्ती र गणकहरु छनोटको काम थालिएको छ । गणनामा ४० वटा हात्ती प्रयोग गरिँदै छ । दुई निकुञ्ज र राष्ट्रिय प्रकृति संरक्षण कोषका हात्ती गणनामा प्रयोग गरिने छ । कोशीमा दरबन्दी रहेर यहाँ रहेका हात्ती र मध्यवर्ती क्षेत्रमा केही निजी हात्तीलाई पनि गणनामा प्रयोग गरिने छ ।
बरालका अनुसार ४० जना मुख्य गणक र वैकल्पिक २० जनालाई गणनामा खटाइँदैछ । यसका अतिरिक्त हात्तीको दरबन्दीमा रहेका कर्मचारी खटिनेछन् । गणनामा खटिनेका लागि यही चैत ६ र ७ गते सौराहामा तालिम दिइँदैछ । बरालले भन्नुभयो, “गणनामा ध्यान दिनुपर्ने विषयमा छलफलसँगै तालिम दिइने छ ।” गणनाका समयमा आवश्यक पर्ने सामग्री खरिद, फारम छपाइको काम यतिबेला भइरहेको उहाँले जानकारी दिनुभयो ।
राष्ट्रिय प्रकृति संरक्षण कोष सौराहाका प्रमुख डा बाबुराम लामिछानेका अनुसार गणनामा खटिने कर्मचारी, हात्ती छनोटसँगै उनीहरुको बासस्थानको व्यवस्थापनलगायतका तयारी भइरहेको छ । निकुञ्जको गणना गर्नुपर्ने क्षेत्रको अध्ययन भइरहेको उहाँले जानकारी दिनुभयो । लामिछानेले भन्नुभयो, “हामी अन्तिम तयारीमा छौँ ।” यहाँका दुई निकुञ्जमा गैँडा गणना गर्न २० दिन हाराहारी लाग्ने उहाँले बताउनुभयो ।
गैँडा गणना राष्ट्रिय निकुञ्ज तथा वन्यजन्तु संरक्षण विभागको नेतृत्वमा हुँदैछ । विभागका दुई कर्मचारी तयारीका लागि यहाँ आइसकेका छन् । विभागका सूचना अधिकारी इकोलोजिष्ट हरिभद्र आचार्यका अनुसार गणनाको उद्घाटन वन तथा वातावरणमन्त्री प्रेम आलेले गर्ने कार्यक्रम छ । सौराहामा कार्यक्रमको उद्घाटन गरेर प्रतापपुरबाट गणना थाल्ने वा प्रतापपुरमा नै उद्घाटन गर्ने भन्ने विषयको टुङ्गो भने लागिनसकेको उहाँले बताउनुभयो । एक÷दुई दिनमा नै विभागको उच्चस्तरको टोलीसमेत गणना तयारीका लागि चितवन आउँदैछ ।आचार्यका अनुसार चैत २९ गतेसम्ममा चारवटै निकुञ्जमा गैँडा गणना सकेर वैशाख पहिलो साता नतिजा सार्वजनिक गर्ने गरी तयारी गरिएको छ । गत वर्ष चैत ११ गतेदेखि गैँडा गणना गर्ने भनिए पनि कोरोना सङ्क्रमणका कारण अन्तिम तयारी भएपछि स्थगन भएको थियो । दुई वर्षअघि गैँडा गणना गर्न लागिएको भए पनि तत्कालीन समयमा दाताको भर पर्दा बजेट अभावमा गणना हुनसकेको थिएन ।
सरकारले गत वर्ष गैँडा गणनाका लागि रु एक करोड १० लाख विनियोजन गरेको थियो । आचार्यका अनुसार गत वर्ष केही सामग्री खरिद भएकाले यस वर्ष सरकारले रु ८० लाख विनियोजन गरेको छ । दाताबाट रु २५ लाख हाराहारी सहयोग हुने उहाँले जानकारी दिनुभयो । राष्ट्रिय प्रकृति संरक्षण कोष (एनटिएनसी), विश्व वन्यजन्तु कोष (डब्लुडब्लुएफ) नेपाल र जेडएसएल नेपाललगायतका सङ्घसंस्थाको सहयोगमा गैँडा गणना गरिँदैछ ।
हरेक पाँच वर्षमा गैँडा गणना गर्ने गरिन्छ । यसअघि सन् २०१५ मा गैँडा गणना गरिएको थियो । निकुञ्जलाई विभिन्न ब्लक बनाएर प्राविधिकले एक–एक गरी गैँडा गन्नेछन् । गणनाका लागि हात्ती, दूरबिन, क्यामेरालगायत प्रयोग गरिन्छ । गैँडाको सङ्ख्या, प्रजनन अवस्था, विचरण र आहाराको अवस्था थाहा पाउन हरेक पाँच–पाँच वर्षमा गैँडा गणना गरिँदै आएको थियो । गणनापछि यसको अवस्था हेरेर व्यवस्थापनको काम गरिनेछ ।
निकुञ्जका सूचना अधिकारी लोकेन्द्र अधिकारीका अनुसार पछिल्लोपटक सन् २०१५ को गणनामा नेपालमा कुल ६४५ गैँडा थिए । तथ्याङ्कअनुसार चितवनमा ६०५, बर्दियामा २९, शुक्लाफाँटामा आठ र पर्सामा तीन गैँडा भेटिएका थिए । नेपालमा सन् १९५० मा ८००, १९५५ मा ४००, १९६० मा ३००, १९६५ मा १००, १९७० मा १०८, १९७५ मा १४७, १९८० मा ३१०, १९८५ मा ३१०, १९९० मा ३५८, १९९५ मा ४६६ रहेको विभागको तथ्याङ्कमा उल्लेख छ । यसैगरी सन् २००० मा ६१२, २००५ मा ४०९, २०१० मा ४३५ हुँदै पछिल्लो गणना सन् २०१५ मा ६४५ पुगेको अधिकारीले बताउनुभयो ।
Day 78 Of #100daysofcode and #Python
— Durga Pokharel (@mathdurga) March 17, 2021
Worked On Own Project(News Scrapping)#womenintech #100DaysOfPython #CodeNewbie #DEVCommunity pic.twitter.com/pwsM3dOK99
Top comments (0)