pdfminer.six/pdflib/pdf2txt.py

#!/usr/bin/env python
import sys
stdout = sys.stdout
stderr = sys.stderr
from pdflib.pdfparser import PDFDocument, PDFParser, PDFPasswordIncorrect
from pdflib.pdfinterp import PDFDevice, PDFResourceManager, \
     PDFPageInterpreter, PDFUnicodeNotDefined
from pdflib.cmap import CMapDB
from pdflib.page import PageItem, FigureItem, TextItem, TextConverter


def enc(x, codec):
  x = x.replace('&','&amp;').replace('>','&gt;').replace('<','&lt;').replace('"','&quot;')
  return x.encode(codec, 'xmlcharrefreplace')

def encprops(props, codec):
  if not props: return ''
  return ''.join( ' %s="%s"' % (enc(k,codec), enc(str(v),codec)) for (k,v) in sorted(props.iteritems()) )


##  SGMLConverter
##
class SGMLConverter(TextConverter):

  def end_page(self, page):
    TextConverter.end_page(self, page)
    page = self.cur_item
    def f(item):
      bbox = '%.3f,%.3f,%.3f,%.3f' % item.bbox
      if isinstance(item, FigureItem):
        self.outfp.write('<figure id="%s" bbox="%s">\n' % (item.id, bbox))
        for child in item.objs:
          f(child)
        self.outfp.write('</figure>\n')
      elif isinstance(item, TextItem):
        self.outfp.write('<text font="%s" direction="%s" bbox="%s" fontsize="%.3f">' %
                         (enc(item.font.fontname, self.codec), item.direction, bbox, item.fontsize))
        self.outfp.write(enc(item.text, self.codec))
        self.outfp.write('</text>\n')
    bbox = '%.3f,%.3f,%.3f,%.3f' % page.bbox
    self.outfp.write('<page id="%s" bbox="%s" rotate="%d">\n' %
                     (page.id, bbox, page.rotate))
    for child in page.objs:
      f(child)
    self.outfp.write('</page>\n')
    return


##  HTMLConverter
##
class HTMLConverter(TextConverter):

  def __init__(self, rsrc, outfp, codec='utf-8', pagenum=True, pagepad=50, scale=1, debug=0):
    TextConverter.__init__(self, rsrc, outfp, codec=codec, debug=debug)
    self.pagenum = pagenum
    self.pagepad = pagepad
    self.scale = scale
    self.outfp.write('<html><head><meta http-equiv="Content-Type" content="text/html; charset=%s">\n' % self.codec)
    self.outfp.write('</head><body>\n')
    self.yoffset = self.pagepad
    return
  
  def end_page(self, page):
    TextConverter.end_page(self, page)
    page = self.cur_item
    def f(item):
      if isinstance(item, FigureItem):
        pass
      elif isinstance(item, TextItem):
        if item.direction == 2:
          wmode = 'tb-rl'
        else:
          wmode = 'lr-tb'
        (x,_,_,y) = item.bbox
        self.outfp.write('<span style="position:absolute; writing-mode:%s; left:%dpx; top:%dpx; font-size:%dpx;">' %
                         (wmode, x*self.scale, (self.yoffset-y)*self.scale, item.fontsize*self.scale))
        self.outfp.write(enc(item.text, self.codec))
        self.outfp.write('</span>\n')
    (x0,y0,x1,y1) = page.bbox
    self.yoffset += y1
    if self.pagenum:
      self.outfp.write('<div style="position:absolute; top:%dpx;"><a name="%s">Page %s</a></div>' % 
                       ((self.yoffset-y1)*self.scale, page.id, page.id))
    self.outfp.write('<span style="position:absolute; border: 1px solid gray; '
                     'left:%dpx; top:%dpx; width:%dpx; height:%dpx;"></span>\n' % 
                     (x0*self.scale, (self.yoffset-y1)*self.scale, (x1-x0)*self.scale, (y1-y0)*self.scale))
    for child in page.objs:
      f(child)
    self.yoffset += self.pagepad
    return

  def close(self):
    self.outfp.write('<div style="position:absolute; top:0px;">Page: %s</div>\n' % 
                     ', '.join('<a href="#%s">%s</a>' % (i,i) for i in xrange(self.pageno)))
    self.outfp.write('</body></html>\n')
    return


##  TagExtractor
##
class TagExtractor(PDFDevice):

  def __init__(self, rsrc, outfp, codec='utf-8', debug=0):
    PDFDevice.__init__(self, rsrc, debug=debug)
    self.outfp = outfp
    self.codec = codec
    self.pageno = 0
    self.tag = None
    return
  
  def render_image(self, stream, size, matrix):
    return

  def render_string(self, textstate, textmatrix, size, seq):
    font = textstate.font
    text = ''
    for x in seq:
      if not isinstance(x, str): continue
      chars = font.decode(x)
      for cid in chars:
        try:
          char = font.to_unicode(cid)
          text += char
        except PDFUnicodeNotDefined, e:
          pass
    self.outfp.write(enc(text, self.codec))
    return

  def begin_page(self, page):
    (x0, y0, x1, y1) = page.mediabox
    bbox = '%.3f,%.3f,%.3f,%.3f' % (x0, y0, x1, y1)
    self.outfp.write('<page id="%s" bbox="%s" rotate="%d">' %
                     (self.pageno, bbox, page.rotate))
    return
  def end_page(self, page):
    self.outfp.write('</page>\n')
    self.pageno += 1
    return
  
  def begin_tag(self, tag, props=None):
    self.outfp.write('<%s%s>' % (enc(tag.name, self.codec), encprops(props, self.codec)))
    self.tag = tag
    return
  
  def end_tag(self):
    assert self.tag
    self.outfp.write('</%s>' % enc(self.tag.name, self.codec))
    self.tag = None
    return
  
  def do_tag(self, tag, props=None):
    self.outfp.write('<%s%s/>' % (enc(tag.name, self.codec), encprops(props, self.codec)))
    return


# pdf2txt
class TextExtractionNotAllowed(RuntimeError): pass

def convert(rsrc, device, fname, pagenos, maxpages=0, password='', debug=0):
  doc = PDFDocument(debug=debug)
  fp = file(fname, 'rb')
  parser = PDFParser(doc, fp, debug=debug)
  try:
    doc.initialize(password)
  except PDFPasswordIncorrect:
    raise TextExtractionNotAllowed('Incorrect password')
  if not doc.is_extractable:
    raise TextExtractionNotAllowed('Text extraction is not allowed: %r' % fname)
  interpreter = PDFPageInterpreter(rsrc, device, debug=debug)
  for (pageno,page) in enumerate(doc.get_pages(debug=debug)):
    if pagenos and (pageno not in pagenos): continue
    interpreter.process_page(page)
    if maxpages and maxpages <= pageno+1: break
  device.close()
  fp.close()
  return


# main
def main(argv):
  import getopt
  def usage():
    print 'usage: %s [-d] [-p pagenos] [-P password] [-c codec] [-t html|sgml|tag] [-o output] file ...' % argv[0]
    return 100
  try:
    (opts, args) = getopt.getopt(argv[1:], 'dp:P:c:t:o:C:D:m:')
  except getopt.GetoptError:
    return usage()
  if not args: return usage()
  debug = 0
  cmapdir = 'CMap'
  cdbcmapdir = 'CDBCMap'
  codec = 'ascii'
  pagenos = set()
  maxpages = 0
  outtype = 'html'
  password = ''
  outfp = stdout
  for (k, v) in opts:
    if k == '-d': debug += 1
    elif k == '-p': pagenos.update( int(x)-1 for x in v.split(',') )
    elif k == '-P': password = v
    elif k == '-c': codec = v
    elif k == '-m': maxpages = int(v)
    elif k == '-C': cmapdir = v
    elif k == '-D': cdbcmapdir = v
    elif k == '-t': outtype = v
    elif k == '-o': outfp = file(v, 'wb')
  #
  CMapDB.initialize(cmapdir, cdbcmapdir, debug=debug)
  rsrc = PDFResourceManager(debug=debug)
  if outtype == 'sgml':
    device = SGMLConverter(rsrc, outfp, codec, debug=debug)
  elif outtype == 'html':
    device = HTMLConverter(rsrc, outfp, codec, debug=debug)
  elif outtype == 'tag':
    device = TagExtractor(rsrc, outfp, codec, debug=debug)
  else:
    return usage()
  for fname in args:
    convert(rsrc, device, fname, pagenos, 
            maxpages=maxpages, password=password, debug=debug)
  return

if __name__ == '__main__': sys.exit(main(sys.argv))
split files. git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@4 1aa58f4a-7d42-0410-adbc-911cccaed67c 2007-12-31 03:41:45 +00:00			`#!/usr/bin/env python`
			`import sys`
			`stdout = sys.stdout`
			`stderr = sys.stderr`
changed again... git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@36 1aa58f4a-7d42-0410-adbc-911cccaed67c 2008-06-29 08:49:28 +00:00			`from pdflib.pdfparser import PDFDocument, PDFParser, PDFPasswordIncorrect`
			`from pdflib.pdfinterp import PDFDevice, PDFResourceManager, \`
separate page handling. version bump up. git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@49 1aa58f4a-7d42-0410-adbc-911cccaed67c 2008-08-30 12:47:21 +00:00			`PDFPageInterpreter, PDFUnicodeNotDefined`
changed again... git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@36 1aa58f4a-7d42-0410-adbc-911cccaed67c 2008-06-29 08:49:28 +00:00			`from pdflib.cmap import CMapDB`
separate page handling. version bump up. git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@49 1aa58f4a-7d42-0410-adbc-911cccaed67c 2008-08-30 12:47:21 +00:00			`from pdflib.page import PageItem, FigureItem, TextItem, TextConverter`
basic encryption support added. git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@19 1aa58f4a-7d42-0410-adbc-911cccaed67c 2008-04-26 06:47:56 +00:00

html output mode added. git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@32 1aa58f4a-7d42-0410-adbc-911cccaed67c 2008-06-23 13:22:27 +00:00			`def enc(x, codec):`
tagged pdf extraction supported. git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@45 1aa58f4a-7d42-0410-adbc-911cccaed67c 2008-07-27 04:30:37 +00:00			`x = x.replace('&','&').replace('>','>').replace('<','<').replace('"','"')`
html output mode added. git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@32 1aa58f4a-7d42-0410-adbc-911cccaed67c 2008-06-23 13:22:27 +00:00			`return x.encode(codec, 'xmlcharrefreplace')`

tagged pdf extraction supported. git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@45 1aa58f4a-7d42-0410-adbc-911cccaed67c 2008-07-27 04:30:37 +00:00			`def encprops(props, codec):`
			`if not props: return ''`
			`return ''.join( ' %s="%s"' % (enc(k,codec), enc(str(v),codec)) for (k,v) in sorted(props.iteritems()) )`

html output mode added. git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@32 1aa58f4a-7d42-0410-adbc-911cccaed67c 2008-06-23 13:22:27 +00:00
tagged pdf extraction supported. git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@45 1aa58f4a-7d42-0410-adbc-911cccaed67c 2008-07-27 04:30:37 +00:00			`## SGMLConverter`
			`##`
			`class SGMLConverter(TextConverter):`

page number bug fix git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@54 1aa58f4a-7d42-0410-adbc-911cccaed67c 2008-09-11 14:57:06 +00:00			`def end_page(self, page):`
			`TextConverter.end_page(self, page)`
separate page handling. version bump up. git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@49 1aa58f4a-7d42-0410-adbc-911cccaed67c 2008-08-30 12:47:21 +00:00			`page = self.cur_item`
html output mode added. git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@32 1aa58f4a-7d42-0410-adbc-911cccaed67c 2008-06-23 13:22:27 +00:00			`def f(item):`
			`bbox = '%.3f,%.3f,%.3f,%.3f' % item.bbox`
			`if isinstance(item, FigureItem):`
tagged pdf extraction supported. git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@45 1aa58f4a-7d42-0410-adbc-911cccaed67c 2008-07-27 04:30:37 +00:00			`self.outfp.write('<figure id="%s" bbox="%s">\n' % (item.id, bbox))`
html output mode added. git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@32 1aa58f4a-7d42-0410-adbc-911cccaed67c 2008-06-23 13:22:27 +00:00			`for child in item.objs:`
			`f(child)`
tagged pdf extraction supported. git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@45 1aa58f4a-7d42-0410-adbc-911cccaed67c 2008-07-27 04:30:37 +00:00			`self.outfp.write('</figure>\n')`
html output mode added. git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@32 1aa58f4a-7d42-0410-adbc-911cccaed67c 2008-06-23 13:22:27 +00:00			`elif isinstance(item, TextItem):`
tagged pdf extraction supported. git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@45 1aa58f4a-7d42-0410-adbc-911cccaed67c 2008-07-27 04:30:37 +00:00			`self.outfp.write('<text font="%s" direction="%s" bbox="%s" fontsize="%.3f">' %`
			`(enc(item.font.fontname, self.codec), item.direction, bbox, item.fontsize))`
			`self.outfp.write(enc(item.text, self.codec))`
			`self.outfp.write('</text>\n')`
			`bbox = '%.3f,%.3f,%.3f,%.3f' % page.bbox`
			`self.outfp.write('<page id="%s" bbox="%s" rotate="%d">\n' %`
			`(page.id, bbox, page.rotate))`
			`for child in page.objs:`
			`f(child)`
			`self.outfp.write('</page>\n')`
html output mode added. git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@32 1aa58f4a-7d42-0410-adbc-911cccaed67c 2008-06-23 13:22:27 +00:00			`return`

tagged pdf extraction supported. git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@45 1aa58f4a-7d42-0410-adbc-911cccaed67c 2008-07-27 04:30:37 +00:00
			`## HTMLConverter`
			`##`
			`class HTMLConverter(TextConverter):`

			`def __init__(self, rsrc, outfp, codec='utf-8', pagenum=True, pagepad=50, scale=1, debug=0):`
			`TextConverter.__init__(self, rsrc, outfp, codec=codec, debug=debug)`
			`self.pagenum = pagenum`
			`self.pagepad = pagepad`
			`self.scale = scale`
			`self.outfp.write('<html><head><meta http-equiv="Content-Type" content="text/html; charset=%s">\n' % self.codec)`
			`self.outfp.write('</head><body>\n')`
			`self.yoffset = self.pagepad`
			`return`

page number bug fix git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@54 1aa58f4a-7d42-0410-adbc-911cccaed67c 2008-09-11 14:57:06 +00:00			`def end_page(self, page):`
			`TextConverter.end_page(self, page)`
separate page handling. version bump up. git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@49 1aa58f4a-7d42-0410-adbc-911cccaed67c 2008-08-30 12:47:21 +00:00			`page = self.cur_item`
html output mode added. git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@32 1aa58f4a-7d42-0410-adbc-911cccaed67c 2008-06-23 13:22:27 +00:00			`def f(item):`
			`if isinstance(item, FigureItem):`
			`pass`
			`elif isinstance(item, TextItem):`
			`if item.direction == 2:`
			`wmode = 'tb-rl'`
			`else:`
			`wmode = 'lr-tb'`
			`(x,_,_,y) = item.bbox`
tagged pdf extraction supported. git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@45 1aa58f4a-7d42-0410-adbc-911cccaed67c 2008-07-27 04:30:37 +00:00			`self.outfp.write('<span style="position:absolute; writing-mode:%s; left:%dpx; top:%dpx; font-size:%dpx;">' %`
			`(wmode, xself.scale, (self.yoffset-y)self.scale, item.fontsize*self.scale))`
			`self.outfp.write(enc(item.text, self.codec))`
			`self.outfp.write('</span>\n')`
			`(x0,y0,x1,y1) = page.bbox`
			`self.yoffset += y1`
			`if self.pagenum:`
			`self.outfp.write('<div style="position:absolute; top:%dpx;"><a name="%s">Page %s</a></div>' %`
			`((self.yoffset-y1)*self.scale, page.id, page.id))`
			`self.outfp.write('<span style="position:absolute; border: 1px solid gray; '`
			`'left:%dpx; top:%dpx; width:%dpx; height:%dpx;"></span>\n' %`
			`(x0self.scale, (self.yoffset-y1)self.scale, (x1-x0)self.scale, (y1-y0)self.scale))`
			`for child in page.objs:`
			`f(child)`
			`self.yoffset += self.pagepad`
			`return`

			`def close(self):`
			`self.outfp.write('<div style="position:absolute; top:0px;">Page: %s</div>\n' %`
			`', '.join('<a href="#%s">%s</a>' % (i,i) for i in xrange(self.pageno)))`
			`self.outfp.write('</body></html>\n')`
			`return`


			`## TagExtractor`
			`##`
			`class TagExtractor(PDFDevice):`

			`def __init__(self, rsrc, outfp, codec='utf-8', debug=0):`
			`PDFDevice.__init__(self, rsrc, debug=debug)`
			`self.outfp = outfp`
			`self.codec = codec`
			`self.pageno = 0`
			`self.tag = None`
			`return`

			`def render_image(self, stream, size, matrix):`
			`return`

			`def render_string(self, textstate, textmatrix, size, seq):`
			`font = textstate.font`
			`text = ''`
			`for x in seq:`
			`if not isinstance(x, str): continue`
			`chars = font.decode(x)`
			`for cid in chars:`
			`try:`
			`char = font.to_unicode(cid)`
			`text += char`
			`except PDFUnicodeNotDefined, e:`
			`pass`
			`self.outfp.write(enc(text, self.codec))`
			`return`

			`def begin_page(self, page):`
			`(x0, y0, x1, y1) = page.mediabox`
			`bbox = '%.3f,%.3f,%.3f,%.3f' % (x0, y0, x1, y1)`
			`self.outfp.write('<page id="%s" bbox="%s" rotate="%d">' %`
			`(self.pageno, bbox, page.rotate))`
			`return`
page number bug fix git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@54 1aa58f4a-7d42-0410-adbc-911cccaed67c 2008-09-11 14:57:06 +00:00			`def end_page(self, page):`
tagged pdf extraction supported. git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@45 1aa58f4a-7d42-0410-adbc-911cccaed67c 2008-07-27 04:30:37 +00:00			`self.outfp.write('</page>\n')`
			`self.pageno += 1`
			`return`

			`def begin_tag(self, tag, props=None):`
			`self.outfp.write('<%s%s>' % (enc(tag.name, self.codec), encprops(props, self.codec)))`
			`self.tag = tag`
			`return`

			`def end_tag(self):`
			`assert self.tag`
			`self.outfp.write('</%s>' % enc(self.tag.name, self.codec))`
			`self.tag = None`
			`return`

			`def do_tag(self, tag, props=None):`
			`self.outfp.write('<%s%s/>' % (enc(tag.name, self.codec), encprops(props, self.codec)))`
split files. git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@4 1aa58f4a-7d42-0410-adbc-911cccaed67c 2007-12-31 03:41:45 +00:00			`return`


			`# pdf2txt`
add some restriction git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@22 1aa58f4a-7d42-0410-adbc-911cccaed67c 2008-04-27 04:34:41 +00:00			`class TextExtractionNotAllowed(RuntimeError): pass`
various cleanup for release. documentation improved. git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@24 1aa58f4a-7d42-0410-adbc-911cccaed67c 2008-04-27 11:47:38 +00:00
outfp unnecessary git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@50 1aa58f4a-7d42-0410-adbc-911cccaed67c 2008-09-06 04:15:51 +00:00			`def convert(rsrc, device, fname, pagenos, maxpages=0, password='', debug=0):`
split files. git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@4 1aa58f4a-7d42-0410-adbc-911cccaed67c 2007-12-31 03:41:45 +00:00			`doc = PDFDocument(debug=debug)`
win32 bug fixed git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@27 1aa58f4a-7d42-0410-adbc-911cccaed67c 2008-04-29 11:17:06 +00:00			`fp = file(fname, 'rb')`
split files. git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@4 1aa58f4a-7d42-0410-adbc-911cccaed67c 2007-12-31 03:41:45 +00:00			`parser = PDFParser(doc, fp, debug=debug)`
various cleanup for release. documentation improved. git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@24 1aa58f4a-7d42-0410-adbc-911cccaed67c 2008-04-27 11:47:38 +00:00			`try:`
			`doc.initialize(password)`
			`except PDFPasswordIncorrect:`
pdf2html webapp added. git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@52 1aa58f4a-7d42-0410-adbc-911cccaed67c 2008-09-06 04:51:01 +00:00			`raise TextExtractionNotAllowed('Incorrect password')`
add some restriction git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@22 1aa58f4a-7d42-0410-adbc-911cccaed67c 2008-04-27 04:34:41 +00:00			`if not doc.is_extractable:`
pdf2html webapp added. git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@52 1aa58f4a-7d42-0410-adbc-911cccaed67c 2008-09-06 04:51:01 +00:00			`raise TextExtractionNotAllowed('Text extraction is not allowed: %r' % fname)`
split files. git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@4 1aa58f4a-7d42-0410-adbc-911cccaed67c 2007-12-31 03:41:45 +00:00			`interpreter = PDFPageInterpreter(rsrc, device, debug=debug)`
outline (TOC) extraction supported. git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@42 1aa58f4a-7d42-0410-adbc-911cccaed67c 2008-07-09 15:15:32 +00:00			`for (pageno,page) in enumerate(doc.get_pages(debug=debug)):`
			`if pagenos and (pageno not in pagenos): continue`
split files. git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@4 1aa58f4a-7d42-0410-adbc-911cccaed67c 2007-12-31 03:41:45 +00:00			`interpreter.process_page(page)`
outline (TOC) extraction supported. git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@42 1aa58f4a-7d42-0410-adbc-911cccaed67c 2008-07-09 15:15:32 +00:00			`if maxpages and maxpages <= pageno+1: break`
split files. git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@4 1aa58f4a-7d42-0410-adbc-911cccaed67c 2007-12-31 03:41:45 +00:00			`device.close()`
html output mode added. git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@32 1aa58f4a-7d42-0410-adbc-911cccaed67c 2008-06-23 13:22:27 +00:00			`fp.close()`
split files. git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@4 1aa58f4a-7d42-0410-adbc-911cccaed67c 2007-12-31 03:41:45 +00:00			`return`


			`# main`
			`def main(argv):`
			`import getopt`
			`def usage():`
tagged pdf extraction supported. git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@45 1aa58f4a-7d42-0410-adbc-911cccaed67c 2008-07-27 04:30:37 +00:00			`print 'usage: %s [-d] [-p pagenos] [-P password] [-c codec] [-t html\|sgml\|tag] [-o output] file ...' % argv[0]`
split files. git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@4 1aa58f4a-7d42-0410-adbc-911cccaed67c 2007-12-31 03:41:45 +00:00			`return 100`
			`try:`
tagged pdf extraction supported. git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@45 1aa58f4a-7d42-0410-adbc-911cccaed67c 2008-07-27 04:30:37 +00:00			`(opts, args) = getopt.getopt(argv[1:], 'dp:P:c:t:o:C:D:m:')`
split files. git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@4 1aa58f4a-7d42-0410-adbc-911cccaed67c 2007-12-31 03:41:45 +00:00			`except getopt.GetoptError:`
			`return usage()`
			`if not args: return usage()`
			`debug = 0`
			`cmapdir = 'CMap'`
			`cdbcmapdir = 'CDBCMap'`
			`codec = 'ascii'`
outline (TOC) extraction supported. git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@42 1aa58f4a-7d42-0410-adbc-911cccaed67c 2008-07-09 15:15:32 +00:00			`pagenos = set()`
several bugfixes. git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@41 1aa58f4a-7d42-0410-adbc-911cccaed67c 2008-07-03 15:51:44 +00:00			`maxpages = 0`
tagged pdf extraction supported. git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@45 1aa58f4a-7d42-0410-adbc-911cccaed67c 2008-07-27 04:30:37 +00:00			`outtype = 'html'`
various cleanup for release. documentation improved. git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@24 1aa58f4a-7d42-0410-adbc-911cccaed67c 2008-04-27 11:47:38 +00:00			`password = ''`
split files. git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@4 1aa58f4a-7d42-0410-adbc-911cccaed67c 2007-12-31 03:41:45 +00:00			`outfp = stdout`
			`for (k, v) in opts:`
			`if k == '-d': debug += 1`
outline (TOC) extraction supported. git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@42 1aa58f4a-7d42-0410-adbc-911cccaed67c 2008-07-09 15:15:32 +00:00			`elif k == '-p': pagenos.update( int(x)-1 for x in v.split(',') )`
various cleanup for release. documentation improved. git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@24 1aa58f4a-7d42-0410-adbc-911cccaed67c 2008-04-27 11:47:38 +00:00			`elif k == '-P': password = v`
split files. git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@4 1aa58f4a-7d42-0410-adbc-911cccaed67c 2007-12-31 03:41:45 +00:00			`elif k == '-c': codec = v`
several bugfixes. git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@41 1aa58f4a-7d42-0410-adbc-911cccaed67c 2008-07-03 15:51:44 +00:00			`elif k == '-m': maxpages = int(v)`
vertical writing bug fixed. git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@34 1aa58f4a-7d42-0410-adbc-911cccaed67c 2008-06-26 15:32:36 +00:00			`elif k == '-C': cmapdir = v`
			`elif k == '-D': cdbcmapdir = v`
tagged pdf extraction supported. git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@45 1aa58f4a-7d42-0410-adbc-911cccaed67c 2008-07-27 04:30:37 +00:00			`elif k == '-t': outtype = v`
various cleanup for release. documentation improved. git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@24 1aa58f4a-7d42-0410-adbc-911cccaed67c 2008-04-27 11:47:38 +00:00			`elif k == '-o': outfp = file(v, 'wb')`
split files. git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@4 1aa58f4a-7d42-0410-adbc-911cccaed67c 2007-12-31 03:41:45 +00:00			`#`
			`CMapDB.initialize(cmapdir, cdbcmapdir, debug=debug)`
			`rsrc = PDFResourceManager(debug=debug)`
tagged pdf extraction supported. git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@45 1aa58f4a-7d42-0410-adbc-911cccaed67c 2008-07-27 04:30:37 +00:00			`if outtype == 'sgml':`
			`device = SGMLConverter(rsrc, outfp, codec, debug=debug)`
			`elif outtype == 'html':`
			`device = HTMLConverter(rsrc, outfp, codec, debug=debug)`
			`elif outtype == 'tag':`
			`device = TagExtractor(rsrc, outfp, codec, debug=debug)`
			`else:`
			`return usage()`
split files. git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@4 1aa58f4a-7d42-0410-adbc-911cccaed67c 2007-12-31 03:41:45 +00:00			`for fname in args:`
outfp unnecessary git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@50 1aa58f4a-7d42-0410-adbc-911cccaed67c 2008-09-06 04:15:51 +00:00			`convert(rsrc, device, fname, pagenos,`
tagged pdf extraction supported. git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@45 1aa58f4a-7d42-0410-adbc-911cccaed67c 2008-07-27 04:30:37 +00:00			`maxpages=maxpages, password=password, debug=debug)`
split files. git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@4 1aa58f4a-7d42-0410-adbc-911cccaed67c 2007-12-31 03:41:45 +00:00			`return`

			`if __name__ == '__main__': sys.exit(main(sys.argv))`