АНАЛИЗ НА XML В PYTHON

Тази статия се фокусира върху това как човек може да анализира даден XML файл и да извлече някои полезни данни от него по структуриран начин. XML: XML означава eXtensible Markup Language. Той е проектиран да съхранява и пренася данни. Той е проектиран да бъде както човешко, така и машинно четимо. Ето защо целите на дизайна на XML наблягат на простотата, общоприетостта и използваемостта в Интернет. XML файлът, който ще бъде анализиран в този урок, всъщност е RSS емисия. RSS: RSS (Rich Site Summary, често наричан Really Simple Syndication) използва група от стандартни формати за уеб емисии, за да публикува често актуализирана информация, като записи в блогове, заглавия на новини, аудио, видео. RSS е XML форматиран обикновен текст.

Самият RSS формат е относително лесен за четене както от автоматизирани процеси, така и от хора.
RSS, обработен в този урок, е RSS емисия на водещи новини от популярен новинарски уебсайт. Можете да го проверите тук . Нашата цел е да обработим тази RSS емисия (или XML файл) и да я запазим в друг формат за бъдеща употреба.

Използван Python модул: Тази статия ще се съсредоточи върху използването на вградени xml модул в python за парсване на XML и основният фокус ще бъде върху XML API на ElementTree на този модул. Изпълнение: Python

#Python code to illustrate parsing of XML files # importing the required modules import csv import requests import xml.etree.ElementTree as ET def loadRSS(): # url of rss feed url = 'http://www.hindustantimes.com/rss/topnews/rssfeed.xml' # creating HTTP response object from given url resp = requests.get(url) # saving the xml file with open('topnewsfeed.xml' 'wb') as f: f.write(resp.content) def parseXML(xmlfile): # create element tree object tree = ET.parse(xmlfile) # get root element root = tree.getroot() # create empty list for news items newsitems = [] # iterate news items for item in root.findall('./channel/item'): # empty news dictionary news = {} # iterate child elements of item for child in item: # special checking for namespace object content:media if child.tag == '{https://video.search.yahoo.com/mrss': news['media'] = child.attrib['url'] else: news[child.tag] = child.text.encode('utf8') # append news dictionary to news items list newsitems.append(news) # return news items list return newsitems def savetoCSV(newsitems filename): # specifying the fields for csv file fields = ['guid' 'title' 'pubDate' 'description' 'link' 'media'] # writing to csv file with open(filename 'w') as csvfile: # creating a csv dict writer object writer = csv.DictWriter(csvfile fieldnames = fields) # writing headers (field names) writer.writeheader() # writing data rows writer.writerows(newsitems) def main(): # load rss from web to update existing xml file loadRSS() # parse xml file newsitems = parseXML('topnewsfeed.xml') # store news items in a csv file savetoCSV(newsitems 'topnews.csv') if __name__ == '__main__': # calling main function main()

Above code will:

Заредете RSS емисия от посочения URL адрес и я запазете като XML файл.
Анализирайте XML файла, за да запазите новините като списък с речници, където всеки речник е отделна новина.
Запазете новините в CSV файл.

Нека се опитаме да разберем кода на части:

def loadRSS(): # url of rss feed url = 'http://www.hindustantimes.com/rss/topnews/rssfeed.xml' # creating HTTP response object from given url resp = requests.get(url) # saving the xml file with open('topnewsfeed.xml' 'wb') as f: f.write(resp.content)

topnewsfeed.xml

parseXML()

xml.etree.ElementTree

ElementTree

елемент

ElementTree

елемент

parseXML()

tree = ET.parse(xmlfile)

ElementTree

xmlфайл.

root = tree.getroot()

getrooted()

дърво

елемент

for item in root.findall('./channel/item'):

елемент

./канал/елемент

XPath

елемент

канал

корен

тук

for item in root.findall('./channel/item'): # empty news dictionary news = {} # iterate child elements of item for child in item: # special checking for namespace object content:media if child.tag == '{https://video.search.yahoo.com/mrss': news['media'] = child.attrib['url'] else: news[child.tag] = child.text.encode('utf8') # append news dictionary to news items list newsitems.append(news)

елемент

новини

for child in item:

if child.tag == '{https://video.search.yahoo.com/mrss': news['media'] = child.attrib['url']

дете.аттриб

URL адрес

медии: съдържание

news[child.tag] = child.text.encode('utf8')

child.tag

дете.текст

{'description': 'Ignis has a tough competition already from Hyun....  'guid': 'http://www.hindustantimes.com/autos/maruti-ignis-launch....  'link': 'http://www.hindustantimes.com/autos/maruti-ignis-launch....  'media': 'http://www.hindustantimes.com/rf/image_size_630x354/HT/...  'pubDate': 'Thu 12 Jan 2017 12:33:04 GMT ' 'title': 'Maruti Ignis launches on Jan 13: Five cars that threa..... }

новинарски сайтове

savetoCSV()

И така, ето как изглеждат нашите форматирани данни сега:

Както можете да видите, йерархичните XML файлови данни са преобразувани в обикновен CSV файл, така че всички новини да се съхраняват под формата на таблица. Това улеснява и разширяването на базата данни. Също така човек може да използва JSON-подобни данни директно в своите приложения! Това е най-добрата алтернатива за извличане на данни от уебсайтове, които не предоставят публичен API, но предоставят някои RSS канали. Всички кодове и файлове, използвани в горната статия, могат да бъдат намерени тук . Какво следва?

Можете да разгледате още rss емисии на новинарския уебсайт, използван в горния пример. Можете да опитате да създадете разширена версия на горния пример, като анализирате и други rss емисии.
Вие сте фен на крикета? Тогава това RSS емисията трябва да ви интересува! Можете да анализирате този XML файл, за да изтриете информация за мачовете по крикет на живо и да го използвате, за да направите десктоп нотификатор!

Тест за HTML и XML Създаване на тест

TechCodeview

Анализ на XML в Python