Bejegyzések

XML elemzés Knime-el

Kép
XML állomány feldolgozása Hogyan néz ki egy xml: <?xml version = “1.0” encoding = “UTF-8”?>  -- <Declaration> <Ember>                                                        -- <RootElement>  <Szemely>                                                   -- <Element1>  <SzDatum>2014-07-05</SzDatum>              -- <Elem1.1>data</Elem1.1>  <Ido>00:27:24</Ido>                                   -- <Elem1.2>data</Elem1.2>  <Nyelv>Magyar</Nyelv>                             -- <Elem1.3>data</Elem1.3>  </Szemely>                                                   -- </Element1> </Ember>                                                        -- </RootElement> Mi volt a minta: <annotation verified="yes"> <folder>8bit</folder> <filename>xxx.png</filename> <path>D:/xxx.png</path> <source> <database>

XML összahasonlítás pythonnal

Kép
  Összevetésre használjuk a xmldiff csomagot Példa 1 #  conda install xmldiff #  from xmldiff import main #  from xmldiff import main, formatting import xmldiff diff1 = xmldiff.main.diff_files(r"c:\Users\User\Downloads\kl.xml",                                              r"c:\Users\User\Downloads\kl_.xml",                                              diff_options = {'F': 0.5, 'ratio_mode': 'fast'}) for egy in diff1:    print('Eltérés : ',egy) Eredmény 1 Eltérés : MoveNode(node='/annotation/size/width[1]', target='/annotation/size[1]', position=2) Eltérés : MoveNode(node='/annotation/object[2]/bndbox[1]', target='/annotation/object[2]', position=2) Eltérés : UpdateTextIn(node='/annotation/source/database[1]', text='Unknown2') Eltérés : MoveNode(node='/annotation/object[1]/bndbox/ymax[1]', target='/annotation/object[1]/bndbox[1]', position=1) Példa 2 diff2 = xmldiff.ma

PDF file olvasása pythonnal

Kép
  Telepítés Anaconda conda install PyPDF2  conda install tika  Python python3 -m pip install PyPDF2       // installáláa python3 -m pip show PyPDF2        // ellenőrzés python3 -m pip install tika  Állományból telepítés python3 -m pip install c:\Users\User\Downloads\PyPDF4-1.27.0.tar.gz In [20]: # modul importálása import PyPDF2 # file objektum létrehozása (b: binális megnyítással) pdfFileObj = open ( r 'c:\Users\User\Documents\kl\sj_pdf\hozzajarulo_nyilatkozat_vedooltashoz.pdf' , 'rb' ) # pdf kiolvasó objektum léterhozása pdfReader = PyPDF2 . PdfFileReader ( pdfFileObj ) # lapszám kiírása print ( 'A pdf file oldal száma :' , pdfReader . numPages ) # egy oldal megcímzése pageObj = pdfReader . getPage ( 0 ) print ( '---------------pdf tartalma ---------------' ) # megcímzett oldal kiolvasása és kiírása print ( pageObj . extractText ()) print ( '---------------pdf információk ---------------' )