pdfminer.six/pdfminer/pdfparser.py

#!/usr/bin/env python
import sys
try:
    from cStringIO import StringIO
except ImportError:
    from StringIO import StringIO
from psparser import PSStackParser
from psparser import PSSyntaxError, PSEOF
from psparser import KWD, STRICT
from pdftypes import PDFException
from pdftypes import PDFStream, PDFObjRef
from pdftypes import int_value
from pdftypes import dict_value


##  Exceptions
##
class PDFSyntaxError(PDFException):
    pass


##  PDFParser
##
class PDFParser(PSStackParser):

    """
    PDFParser fetch PDF objects from a file stream.
    It can handle indirect references by referring to
    a PDF document set by set_document method.
    It also reads XRefs at the end of every PDF file.

    Typical usage:
      parser = PDFParser(fp)
      parser.read_xref()
      parser.read_xref(fallback=True) # optional
      parser.set_document(doc)
      parser.seek(offset)
      parser.nextobject()

    """

    def __init__(self, fp):
        PSStackParser.__init__(self, fp)
        self.doc = None
        self.fallback = False
        return

    def set_document(self, doc):
        """Associates the parser with a PDFDocument object."""
        self.doc = doc
        return

    KEYWORD_R = KWD('R')
    KEYWORD_NULL = KWD('null')
    KEYWORD_ENDOBJ = KWD('endobj')
    KEYWORD_STREAM = KWD('stream')
    KEYWORD_XREF = KWD('xref')
    KEYWORD_STARTXREF = KWD('startxref')

    def do_keyword(self, pos, token):
        """Handles PDF-related keywords."""

        if token in (self.KEYWORD_XREF, self.KEYWORD_STARTXREF):
            self.add_results(*self.pop(1))

        elif token is self.KEYWORD_ENDOBJ:
            self.add_results(*self.pop(4))

        elif token is self.KEYWORD_NULL:
            # null object
            self.push((pos, None))

        elif token is self.KEYWORD_R:
            # reference to indirect object
            try:
                ((_, objid), (_, genno)) = self.pop(2)
                (objid, genno) = (int(objid), int(genno))
                obj = PDFObjRef(self.doc, objid, genno)
                self.push((pos, obj))
            except PSSyntaxError:
                pass

        elif token is self.KEYWORD_STREAM:
            # stream object
            ((_, dic),) = self.pop(1)
            dic = dict_value(dic)
            objlen = 0
            if not self.fallback:
                try:
                    objlen = int_value(dic['Length'])
                except KeyError:
                    if STRICT:
                        raise PDFSyntaxError('/Length is undefined: %r' % dic)
            self.seek(pos)
            try:
                (_, line) = self.nextline()  # 'stream'
            except PSEOF:
                if STRICT:
                    raise PDFSyntaxError('Unexpected EOF')
                return
            pos += len(line)
            self.fp.seek(pos)
            data = self.fp.read(objlen)
            self.seek(pos+objlen)
            while 1:
                try:
                    (linepos, line) = self.nextline()
                except PSEOF:
                    if STRICT:
                        raise PDFSyntaxError('Unexpected EOF')
                    break
                if 'endstream' in line:
                    i = line.index('endstream')
                    objlen += i
                    data += line[:i]
                    break
                objlen += len(line)
                data += line
            self.seek(pos+objlen)
            # XXX limit objlen not to exceed object boundary
            if 2 <= self.debug:
                print >>sys.stderr, 'Stream: pos=%d, objlen=%d, dic=%r, data=%r...' % \
                                    (pos, objlen, dic, data[:10])
            obj = PDFStream(dic, data, self.doc.decipher)
            self.push((pos, obj))

        else:
            # others
            self.push((pos, token))

        return


##  PDFStreamParser
##
class PDFStreamParser(PDFParser):

    """
    PDFStreamParser is used to parse PDF content streams
    that is contained in each page and has instructions
    for rendering the page. A reference to a PDF document is
    needed because a PDF content stream can also have
    indirect references to other objects in the same document.
    """

    def __init__(self, data):
        PDFParser.__init__(self, StringIO(data))
        return

    def flush(self):
        self.add_results(*self.popall())
        return

    def do_keyword(self, pos, token):
        if token is self.KEYWORD_R:
            # reference to indirect object
            try:
                ((_, objid), (_, genno)) = self.pop(2)
                (objid, genno) = (int(objid), int(genno))
                obj = PDFObjRef(self.doc, objid, genno)
                self.push((pos, obj))
            except PSSyntaxError:
                pass
            return
        # others
        self.push((pos, token))
        return
renamed: python2 -> python. 2013-10-17 14:05:27 +00:00			`#!/usr/bin/env python`
source code tidy up git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@147 1aa58f4a-7d42-0410-adbc-911cccaed67c 2009-11-03 01:27:30 +00:00			`import sys`
More docstrings. git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@151 1aa58f4a-7d42-0410-adbc-911cccaed67c 2009-11-04 11:28:32 +00:00			`try:`
			`from cStringIO import StringIO`
			`except ImportError:`
			`from StringIO import StringIO`
source code tidy up git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@147 1aa58f4a-7d42-0410-adbc-911cccaed67c 2009-11-03 01:27:30 +00:00			`from psparser import PSStackParser`
fix CMapDB initialization stuff. more code cleanup. git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@148 1aa58f4a-7d42-0410-adbc-911cccaed67c 2009-11-03 13:39:34 +00:00			`from psparser import PSSyntaxError, PSEOF`
Split pdfparser.py and pdfdocument.py. 2013-10-10 09:29:30 +00:00			`from psparser import KWD, STRICT`
			`from pdftypes import PDFException`
			`from pdftypes import PDFStream, PDFObjRef`
Remove unused imports identified by pyflakes 2013-11-07 07:09:44 +00:00			`from pdftypes import int_value`
			`from pdftypes import dict_value`
initial import. git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@2 1aa58f4a-7d42-0410-adbc-911cccaed67c 2007-12-30 09:13:51 +00:00

tmp git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@57 1aa58f4a-7d42-0410-adbc-911cccaed67c 2009-01-10 09:14:46 +00:00			`## Exceptions`
initial import. git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@2 1aa58f4a-7d42-0410-adbc-911cccaed67c 2007-12-30 09:13:51 +00:00			`##`
PEP8: Whitespace changes to match pep8 2013-11-07 08:35:04 +00:00			`class PDFSyntaxError(PDFException):`
			`pass`
outline bug fixed git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@249 1aa58f4a-7d42-0410-adbc-911cccaed67c 2010-10-17 05:14:52 +00:00
initial import. git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@2 1aa58f4a-7d42-0410-adbc-911cccaed67c 2007-12-30 09:13:51 +00:00
			`## PDFParser`
			`##`
			`class PDFParser(PSStackParser):`

documentation bit, ready for release-20100327 git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@198 1aa58f4a-7d42-0410-adbc-911cccaed67c 2010-03-27 06:06:09 +00:00			`"""`
			`PDFParser fetch PDF objects from a file stream.`
			`It can handle indirect references by referring to`
			`a PDF document set by set_document method.`
			`It also reads XRefs at the end of every PDF file.`

			`Typical usage:`
			`parser = PDFParser(fp)`
			`parser.read_xref()`
Introducing PDFObjectNotFound 2013-10-09 12:39:23 +00:00			`parser.read_xref(fallback=True) # optional`
documentation bit, ready for release-20100327 git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@198 1aa58f4a-7d42-0410-adbc-911cccaed67c 2010-03-27 06:06:09 +00:00			`parser.set_document(doc)`
			`parser.seek(offset)`
			`parser.nextobject()`
PEP8: Remove trailing whitespace 2013-11-07 07:14:53 +00:00
documentation bit, ready for release-20100327 git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@198 1aa58f4a-7d42-0410-adbc-911cccaed67c 2010-03-27 06:06:09 +00:00			`"""`

warning removal. code cleanup. cmap bug fixed. git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@168 1aa58f4a-7d42-0410-adbc-911cccaed67c 2010-01-01 03:09:26 +00:00			`def __init__(self, fp):`
to 4-space indentation git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@142 1aa58f4a-7d42-0410-adbc-911cccaed67c 2009-10-24 04:41:59 +00:00			`PSStackParser.__init__(self, fp)`
warning removal. code cleanup. cmap bug fixed. git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@168 1aa58f4a-7d42-0410-adbc-911cccaed67c 2010-01-01 03:09:26 +00:00			`self.doc = None`
improvement in fallback git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@238 1aa58f4a-7d42-0410-adbc-911cccaed67c 2010-08-29 06:39:24 +00:00			`self.fallback = False`
to 4-space indentation git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@142 1aa58f4a-7d42-0410-adbc-911cccaed67c 2009-10-24 04:41:59 +00:00			`return`

warning removal. code cleanup. cmap bug fixed. git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@168 1aa58f4a-7d42-0410-adbc-911cccaed67c 2010-01-01 03:09:26 +00:00			`def set_document(self, doc):`
documentation bit, ready for release-20100327 git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@198 1aa58f4a-7d42-0410-adbc-911cccaed67c 2010-03-27 06:06:09 +00:00			`"""Associates the parser with a PDFDocument object."""`
warning removal. code cleanup. cmap bug fixed. git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@168 1aa58f4a-7d42-0410-adbc-911cccaed67c 2010-01-01 03:09:26 +00:00			`self.doc = doc`
			`return`
to 4-space indentation git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@142 1aa58f4a-7d42-0410-adbc-911cccaed67c 2009-10-24 04:41:59 +00:00
abbreviation PSLiteralTable.intern -> LIT, PSKeywordTable.intern -> KWD git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@154 1aa58f4a-7d42-0410-adbc-911cccaed67c 2009-11-07 00:55:18 +00:00			`KEYWORD_R = KWD('R')`
more bugfixes. git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@194 1aa58f4a-7d42-0410-adbc-911cccaed67c 2010-03-23 10:29:52 +00:00			`KEYWORD_NULL = KWD('null')`
abbreviation PSLiteralTable.intern -> LIT, PSKeywordTable.intern -> KWD git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@154 1aa58f4a-7d42-0410-adbc-911cccaed67c 2009-11-07 00:55:18 +00:00			`KEYWORD_ENDOBJ = KWD('endobj')`
			`KEYWORD_STREAM = KWD('stream')`
			`KEYWORD_XREF = KWD('xref')`
			`KEYWORD_STARTXREF = KWD('startxref')`
PEP8: Whitespace changes to match pep8 2013-11-07 08:35:04 +00:00
to 4-space indentation git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@142 1aa58f4a-7d42-0410-adbc-911cccaed67c 2009-10-24 04:41:59 +00:00			`def do_keyword(self, pos, token):`
documentation bit, ready for release-20100327 git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@198 1aa58f4a-7d42-0410-adbc-911cccaed67c 2010-03-27 06:06:09 +00:00			`"""Handles PDF-related keywords."""`
PEP8: Remove trailing whitespace 2013-11-07 07:14:53 +00:00
to 4-space indentation git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@142 1aa58f4a-7d42-0410-adbc-911cccaed67c 2009-10-24 04:41:59 +00:00			`if token in (self.KEYWORD_XREF, self.KEYWORD_STARTXREF):`
			`self.add_results(*self.pop(1))`
PEP8: Remove trailing whitespace 2013-11-07 07:14:53 +00:00
documentation bit, ready for release-20100327 git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@198 1aa58f4a-7d42-0410-adbc-911cccaed67c 2010-03-27 06:06:09 +00:00			`elif token is self.KEYWORD_ENDOBJ:`
to 4-space indentation git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@142 1aa58f4a-7d42-0410-adbc-911cccaed67c 2009-10-24 04:41:59 +00:00			`self.add_results(*self.pop(4))`

documentation bit, ready for release-20100327 git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@198 1aa58f4a-7d42-0410-adbc-911cccaed67c 2010-03-27 06:06:09 +00:00			`elif token is self.KEYWORD_NULL:`
more bugfixes. git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@194 1aa58f4a-7d42-0410-adbc-911cccaed67c 2010-03-23 10:29:52 +00:00			`# null object`
			`self.push((pos, None))`

documentation bit, ready for release-20100327 git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@198 1aa58f4a-7d42-0410-adbc-911cccaed67c 2010-03-27 06:06:09 +00:00			`elif token is self.KEYWORD_R:`
to 4-space indentation git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@142 1aa58f4a-7d42-0410-adbc-911cccaed67c 2009-10-24 04:41:59 +00:00			`# reference to indirect object`
			`try:`
PEP8: Whitespace changes to match pep8 2013-11-07 08:35:04 +00:00			`((_, objid), (_, genno)) = self.pop(2)`
to 4-space indentation git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@142 1aa58f4a-7d42-0410-adbc-911cccaed67c 2009-10-24 04:41:59 +00:00			`(objid, genno) = (int(objid), int(genno))`
			`obj = PDFObjRef(self.doc, objid, genno)`
			`self.push((pos, obj))`
			`except PSSyntaxError:`
			`pass`

documentation bit, ready for release-20100327 git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@198 1aa58f4a-7d42-0410-adbc-911cccaed67c 2010-03-27 06:06:09 +00:00			`elif token is self.KEYWORD_STREAM:`
to 4-space indentation git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@142 1aa58f4a-7d42-0410-adbc-911cccaed67c 2009-10-24 04:41:59 +00:00			`# stream object`
PEP8: Whitespace changes to match pep8 2013-11-07 08:35:04 +00:00			`((_, dic),) = self.pop(1)`
to 4-space indentation git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@142 1aa58f4a-7d42-0410-adbc-911cccaed67c 2009-10-24 04:41:59 +00:00			`dic = dict_value(dic)`
improvement in fallback git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@238 1aa58f4a-7d42-0410-adbc-911cccaed67c 2010-08-29 06:39:24 +00:00			`objlen = 0`
			`if not self.fallback:`
			`try:`
			`objlen = int_value(dic['Length'])`
			`except KeyError:`
			`if STRICT:`
			`raise PDFSyntaxError('/Length is undefined: %r' % dic)`
to 4-space indentation git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@142 1aa58f4a-7d42-0410-adbc-911cccaed67c 2009-10-24 04:41:59 +00:00			`self.seek(pos)`
			`try:`
			`(_, line) = self.nextline() # 'stream'`
			`except PSEOF:`
			`if STRICT:`
			`raise PDFSyntaxError('Unexpected EOF')`
			`return`
			`pos += len(line)`
			`self.fp.seek(pos)`
			`data = self.fp.read(objlen)`
			`self.seek(pos+objlen)`
			`while 1:`
			`try:`
			`(linepos, line) = self.nextline()`
			`except PSEOF:`
			`if STRICT:`
			`raise PDFSyntaxError('Unexpected EOF')`
			`break`
			`if 'endstream' in line:`
			`i = line.index('endstream')`
			`objlen += i`
			`data += line[:i]`
			`break`
			`objlen += len(line)`
			`data += line`
			`self.seek(pos+objlen)`
improvement in fallback git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@238 1aa58f4a-7d42-0410-adbc-911cccaed67c 2010-08-29 06:39:24 +00:00			`# XXX limit objlen not to exceed object boundary`
fix xobject resources bug, thanks to Jose Maria git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@209 1aa58f4a-7d42-0410-adbc-911cccaed67c 2010-04-24 04:32:03 +00:00			`if 2 <= self.debug:`
canonicalize package names 2011-03-02 14:43:03 +00:00			`print >>sys.stderr, 'Stream: pos=%d, objlen=%d, dic=%r, data=%r...' % \`
PEP8: Whitespace changes to match pep8 2013-11-07 08:35:04 +00:00			`(pos, objlen, dic, data[:10])`
to 4-space indentation git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@142 1aa58f4a-7d42-0410-adbc-911cccaed67c 2009-10-24 04:41:59 +00:00			`obj = PDFStream(dic, data, self.doc.decipher)`
			`self.push((pos, obj))`

documentation bit, ready for release-20100327 git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@198 1aa58f4a-7d42-0410-adbc-911cccaed67c 2010-03-27 06:06:09 +00:00			`else:`
			`# others`
			`self.push((pos, token))`
PEP8: Remove trailing whitespace 2013-11-07 07:14:53 +00:00
PSEOF check git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@28 1aa58f4a-7d42-0410-adbc-911cccaed67c 2008-05-03 04:10:59 +00:00			`return`
to 4-space indentation git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@142 1aa58f4a-7d42-0410-adbc-911cccaed67c 2009-10-24 04:41:59 +00:00
tmp git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@57 1aa58f4a-7d42-0410-adbc-911cccaed67c 2009-01-10 09:14:46 +00:00
writing mode detection git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@196 1aa58f4a-7d42-0410-adbc-911cccaed67c 2010-03-25 11:38:47 +00:00			`## PDFStreamParser`
Restructuring core lexical handlings. Fix several bugs. git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@17 1aa58f4a-7d42-0410-adbc-911cccaed67c 2008-02-03 09:36:34 +00:00			`##`
writing mode detection git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@196 1aa58f4a-7d42-0410-adbc-911cccaed67c 2010-03-25 11:38:47 +00:00			`class PDFStreamParser(PDFParser):`
to 4-space indentation git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@142 1aa58f4a-7d42-0410-adbc-911cccaed67c 2009-10-24 04:41:59 +00:00
documentation bit, ready for release-20100327 git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@198 1aa58f4a-7d42-0410-adbc-911cccaed67c 2010-03-27 06:06:09 +00:00			`"""`
			`PDFStreamParser is used to parse PDF content streams`
			`that is contained in each page and has instructions`
			`for rendering the page. A reference to a PDF document is`
			`needed because a PDF content stream can also have`
			`indirect references to other objects in the same document.`
			`"""`

writing mode detection git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@196 1aa58f4a-7d42-0410-adbc-911cccaed67c 2010-03-25 11:38:47 +00:00			`def __init__(self, data):`
			`PDFParser.__init__(self, StringIO(data))`
to 4-space indentation git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@142 1aa58f4a-7d42-0410-adbc-911cccaed67c 2009-10-24 04:41:59 +00:00			`return`

			`def flush(self):`
			`self.add_results(*self.popall())`
			`return`
jpeg extraction support added. git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@174 1aa58f4a-7d42-0410-adbc-911cccaed67c 2010-01-30 07:30:01 +00:00
			`def do_keyword(self, pos, token):`
			`if token is self.KEYWORD_R:`
			`# reference to indirect object`
			`try:`
PEP8: Whitespace changes to match pep8 2013-11-07 08:35:04 +00:00			`((_, objid), (_, genno)) = self.pop(2)`
jpeg extraction support added. git-svn-id: https://pdfminerr.googlecode.com/svn/trunk/pdfminer@174 1aa58f4a-7d42-0410-adbc-911cccaed67c 2010-01-30 07:30:01 +00:00			`(objid, genno) = (int(objid), int(genno))`
			`obj = PDFObjRef(self.doc, objid, genno)`
			`self.push((pos, obj))`
			`except PSSyntaxError:`
			`pass`
			`return`
			`# others`
			`self.push((pos, token))`
			`return`