ఖచ్చితంగా, బ్యూటిఫుల్సూప్ లైబ్రరీని ఉపయోగించి పైథాన్లోని వెబ్ స్క్రాపర్ యొక్క ఉదాహరణ ఇక్కడ ఉంది:
కొండచిలువimport requests
from bs4 import BeautifulSoup
url = "https://example.com"
response = requests.get(url)
soup = BeautifulSoup(response.content, "html.parser")
# Find all links on the page
links = []
for link in soup.find_all("a"):
href = link.get("href")
if href.startswith("http"):
links.append(href)
# Print the links
for link in links:
print(link)
ఈ కోడ్ " https://example.com " URL యొక్క HTML కంటెంట్ను స్క్రాప్ చేస్తుంది మరియు పేజీలోని అన్ని లింక్లను కనుగొంటుంది. ఇది వెబ్సైట్కి HTTP అభ్యర్థన చేయడానికి అభ్యర్థనల లైబ్రరీని మరియు ప్రతిస్పందన యొక్క HTML కంటెంట్ను అన్వయించడానికి BeautifulSoup లైబ్రరీని ఉపయోగిస్తుంది. కోడ్ <a>
BeautifulSoup find_all()
పద్ధతిని ఉపయోగించి HTMLలోని అన్ని ట్యాగ్లను కనుగొంటుంది, href
ప్రతి ట్యాగ్ యొక్క లక్షణాన్ని సంగ్రహిస్తుంది మరియు దానిని లింక్ల జాబితాకు జోడిస్తుంది. చివరగా, ఇది కన్సోల్కు లింక్లను ప్రింట్ చేస్తుంది.
వెబ్ స్క్రాపింగ్ చట్టపరమైన మరియు నైతిక పరిగణనలకు లోబడి ఉంటుందని గుర్తుంచుకోండి, కాబట్టి దాని కంటెంట్ను స్క్రాప్ చేయడానికి ముందు వెబ్సైట్ సేవా నిబంధనలను సంప్రదించి, అవసరమైతే అనుమతిని పొందాలని నిర్ధారించుకోండి.