/[pcre]/code/branches/pcre16/pcre_dfa_exec.c
ViewVC logotype

Diff of /code/branches/pcre16/pcre_dfa_exec.c

Parent Directory Parent Directory | Revision Log Revision Log | View Patch Patch

revision 567 by ph10, Sat Nov 6 17:10:00 2010 UTC revision 642 by ph10, Thu Jul 28 18:59:40 2011 UTC
# Line 7  and semantics are as close as possible t Line 7  and semantics are as close as possible t
7  below for why this module is different).  below for why this module is different).
8    
9                         Written by Philip Hazel                         Written by Philip Hazel
10             Copyright (c) 1997-2010 University of Cambridge             Copyright (c) 1997-2011 University of Cambridge
11    
12  -----------------------------------------------------------------------------  -----------------------------------------------------------------------------
13  Redistribution and use in source and binary forms, with or without  Redistribution and use in source and binary forms, with or without
# Line 121  static const uschar coptable[] = { Line 121  static const uschar coptable[] = {
121    0, 0,                          /* \P, \p                                 */    0, 0,                          /* \P, \p                                 */
122    0, 0, 0, 0, 0,                 /* \R, \H, \h, \V, \v                     */    0, 0, 0, 0, 0,                 /* \R, \H, \h, \V, \v                     */
123    0,                             /* \X                                     */    0,                             /* \X                                     */
124    0, 0, 0, 0, 0,                 /* \Z, \z, Opt, ^, $                      */    0, 0, 0, 0, 0, 0,              /* \Z, \z, ^, ^M, $, $M                   */
125    1,                             /* Char                                   */    1,                             /* Char                                   */
126    1,                             /* Charnc                                 */    1,                             /* Chari                                  */
127    1,                             /* not                                    */    1,                             /* not                                    */
128      1,                             /* noti                                   */
129    /* Positive single-char repeats                                          */    /* Positive single-char repeats                                          */
130    1, 1, 1, 1, 1, 1,              /* *, *?, +, +?, ?, ??                    */    1, 1, 1, 1, 1, 1,              /* *, *?, +, +?, ?, ??                    */
131    3, 3, 3,                       /* upto, minupto, exact                   */    3, 3, 3,                       /* upto, minupto, exact                   */
132    1, 1, 1, 3,                    /* *+, ++, ?+, upto+                      */    1, 1, 1, 3,                    /* *+, ++, ?+, upto+                      */
133      1, 1, 1, 1, 1, 1,              /* *I, *?I, +I, +?I, ?I, ??I              */
134      3, 3, 3,                       /* upto I, minupto I, exact I             */
135      1, 1, 1, 3,                    /* *+I, ++I, ?+I, upto+I                  */
136    /* Negative single-char repeats - only for chars < 256                   */    /* Negative single-char repeats - only for chars < 256                   */
137    1, 1, 1, 1, 1, 1,              /* NOT *, *?, +, +?, ?, ??                */    1, 1, 1, 1, 1, 1,              /* NOT *, *?, +, +?, ?, ??                */
138    3, 3, 3,                       /* NOT upto, minupto, exact               */    3, 3, 3,                       /* NOT upto, minupto, exact               */
139    1, 1, 1, 3,                    /* NOT *+, ++, ?+, updo+                  */    1, 1, 1, 3,                    /* NOT *+, ++, ?+, upto+                  */
140      1, 1, 1, 1, 1, 1,              /* NOT *I, *?I, +I, +?I, ?I, ??I          */
141      3, 3, 3,                       /* NOT upto I, minupto I, exact I         */
142      1, 1, 1, 3,                    /* NOT *+I, ++I, ?+I, upto+I              */
143    /* Positive type repeats                                                 */    /* Positive type repeats                                                 */
144    1, 1, 1, 1, 1, 1,              /* Type *, *?, +, +?, ?, ??               */    1, 1, 1, 1, 1, 1,              /* Type *, *?, +, +?, ?, ??               */
145    3, 3, 3,                       /* Type upto, minupto, exact              */    3, 3, 3,                       /* Type upto, minupto, exact              */
# Line 144  static const uschar coptable[] = { Line 151  static const uschar coptable[] = {
151    0,                             /* NCLASS                                 */    0,                             /* NCLASS                                 */
152    0,                             /* XCLASS - variable length               */    0,                             /* XCLASS - variable length               */
153    0,                             /* REF                                    */    0,                             /* REF                                    */
154      0,                             /* REFI                                   */
155    0,                             /* RECURSE                                */    0,                             /* RECURSE                                */
156    0,                             /* CALLOUT                                */    0,                             /* CALLOUT                                */
157    0,                             /* Alt                                    */    0,                             /* Alt                                    */
158    0,                             /* Ket                                    */    0,                             /* Ket                                    */
159    0,                             /* KetRmax                                */    0,                             /* KetRmax                                */
160    0,                             /* KetRmin                                */    0,                             /* KetRmin                                */
161      0,                             /* KetRpos                                */
162      0,                             /* Reverse                                */
163    0,                             /* Assert                                 */    0,                             /* Assert                                 */
164    0,                             /* Assert not                             */    0,                             /* Assert not                             */
165    0,                             /* Assert behind                          */    0,                             /* Assert behind                          */
166    0,                             /* Assert behind not                      */    0,                             /* Assert behind not                      */
167    0,                             /* Reverse                                */    0, 0, 0, 0, 0, 0,              /* ONCE, BRA, BRAPOS, CBRA, CBRAPOS, COND */
168    0, 0, 0, 0,                    /* ONCE, BRA, CBRA, COND                  */    0, 0, 0, 0, 0,                 /* SBRA, SBRAPOS, SCBRA, SCBRAPOS, SCOND  */
   0, 0, 0,                       /* SBRA, SCBRA, SCOND                     */  
169    0, 0,                          /* CREF, NCREF                            */    0, 0,                          /* CREF, NCREF                            */
170    0, 0,                          /* RREF, NRREF                            */    0, 0,                          /* RREF, NRREF                            */
171    0,                             /* DEF                                    */    0,                             /* DEF                                    */
172    0, 0,                          /* BRAZERO, BRAMINZERO                    */    0, 0, 0,                       /* BRAZERO, BRAMINZERO, BRAPOSZERO        */
173    0, 0, 0,                       /* MARK, PRUNE, PRUNE_ARG,                */    0, 0, 0,                       /* MARK, PRUNE, PRUNE_ARG                 */
174    0, 0, 0, 0,                    /* SKIP, SKIP_ARG, THEN, THEN_ARG,        */    0, 0, 0, 0,                    /* SKIP, SKIP_ARG, THEN, THEN_ARG         */
175    0, 0, 0, 0, 0                  /* COMMIT, FAIL, ACCEPT, CLOSE, SKIPZERO  */    0, 0, 0, 0,                    /* COMMIT, FAIL, ACCEPT, ASSERT_ACCEPT    */
176      0, 0                           /* CLOSE, SKIPZERO  */
177  };  };
178    
179  /* This table identifies those opcodes that inspect a character. It is used to  /* This table identifies those opcodes that inspect a character. It is used to
# Line 179  static const uschar poptable[] = { Line 189  static const uschar poptable[] = {
189    1, 1,                          /* \P, \p                                 */    1, 1,                          /* \P, \p                                 */
190    1, 1, 1, 1, 1,                 /* \R, \H, \h, \V, \v                     */    1, 1, 1, 1, 1,                 /* \R, \H, \h, \V, \v                     */
191    1,                             /* \X                                     */    1,                             /* \X                                     */
192    0, 0, 0, 0, 0,                 /* \Z, \z, Opt, ^, $                      */    0, 0, 0, 0, 0, 0,              /* \Z, \z, ^, ^M, $, $M                   */
193    1,                             /* Char                                   */    1,                             /* Char                                   */
194    1,                             /* Charnc                                 */    1,                             /* Chari                                  */
195    1,                             /* not                                    */    1,                             /* not                                    */
196      1,                             /* noti                                   */
197    /* Positive single-char repeats                                          */    /* Positive single-char repeats                                          */
198    1, 1, 1, 1, 1, 1,              /* *, *?, +, +?, ?, ??                    */    1, 1, 1, 1, 1, 1,              /* *, *?, +, +?, ?, ??                    */
199    1, 1, 1,                       /* upto, minupto, exact                   */    1, 1, 1,                       /* upto, minupto, exact                   */
200    1, 1, 1, 1,                    /* *+, ++, ?+, upto+                      */    1, 1, 1, 1,                    /* *+, ++, ?+, upto+                      */
201      1, 1, 1, 1, 1, 1,              /* *I, *?I, +I, +?I, ?I, ??I              */
202      1, 1, 1,                       /* upto I, minupto I, exact I             */
203      1, 1, 1, 1,                    /* *+I, ++I, ?+I, upto+I                  */
204    /* Negative single-char repeats - only for chars < 256                   */    /* Negative single-char repeats - only for chars < 256                   */
205    1, 1, 1, 1, 1, 1,              /* NOT *, *?, +, +?, ?, ??                */    1, 1, 1, 1, 1, 1,              /* NOT *, *?, +, +?, ?, ??                */
206    1, 1, 1,                       /* NOT upto, minupto, exact               */    1, 1, 1,                       /* NOT upto, minupto, exact               */
207    1, 1, 1, 1,                    /* NOT *+, ++, ?+, upto+                  */    1, 1, 1, 1,                    /* NOT *+, ++, ?+, upto+                  */
208      1, 1, 1, 1, 1, 1,              /* NOT *I, *?I, +I, +?I, ?I, ??I          */
209      1, 1, 1,                       /* NOT upto I, minupto I, exact I         */
210      1, 1, 1, 1,                    /* NOT *+I, ++I, ?+I, upto+I              */
211    /* Positive type repeats                                                 */    /* Positive type repeats                                                 */
212    1, 1, 1, 1, 1, 1,              /* Type *, *?, +, +?, ?, ??               */    1, 1, 1, 1, 1, 1,              /* Type *, *?, +, +?, ?, ??               */
213    1, 1, 1,                       /* Type upto, minupto, exact              */    1, 1, 1,                       /* Type upto, minupto, exact              */
# Line 202  static const uschar poptable[] = { Line 219  static const uschar poptable[] = {
219    1,                             /* NCLASS                                 */    1,                             /* NCLASS                                 */
220    1,                             /* XCLASS - variable length               */    1,                             /* XCLASS - variable length               */
221    0,                             /* REF                                    */    0,                             /* REF                                    */
222      0,                             /* REFI                                   */
223    0,                             /* RECURSE                                */    0,                             /* RECURSE                                */
224    0,                             /* CALLOUT                                */    0,                             /* CALLOUT                                */
225    0,                             /* Alt                                    */    0,                             /* Alt                                    */
226    0,                             /* Ket                                    */    0,                             /* Ket                                    */
227    0,                             /* KetRmax                                */    0,                             /* KetRmax                                */
228    0,                             /* KetRmin                                */    0,                             /* KetRmin                                */
229      0,                             /* KetRpos                                */
230      0,                             /* Reverse                                */
231    0,                             /* Assert                                 */    0,                             /* Assert                                 */
232    0,                             /* Assert not                             */    0,                             /* Assert not                             */
233    0,                             /* Assert behind                          */    0,                             /* Assert behind                          */
234    0,                             /* Assert behind not                      */    0,                             /* Assert behind not                      */
235    0,                             /* Reverse                                */    0, 0, 0, 0, 0, 0,              /* ONCE, BRA, BRAPOS, CBRA, CBRAPOS, COND */
236    0, 0, 0, 0,                    /* ONCE, BRA, CBRA, COND                  */    0, 0, 0, 0, 0,                 /* SBRA, SBRAPOS, SCBRA, SCBRAPOS, SCOND  */
   0, 0, 0,                       /* SBRA, SCBRA, SCOND                     */  
237    0, 0,                          /* CREF, NCREF                            */    0, 0,                          /* CREF, NCREF                            */
238    0, 0,                          /* RREF, NRREF                            */    0, 0,                          /* RREF, NRREF                            */
239    0,                             /* DEF                                    */    0,                             /* DEF                                    */
240    0, 0,                          /* BRAZERO, BRAMINZERO                    */    0, 0, 0,                       /* BRAZERO, BRAMINZERO, BRAPOSZERO        */
241    0, 0, 0,                       /* MARK, PRUNE, PRUNE_ARG,                */    0, 0, 0,                       /* MARK, PRUNE, PRUNE_ARG                 */
242    0, 0, 0, 0,                    /* SKIP, SKIP_ARG, THEN, THEN_ARG,        */    0, 0, 0, 0,                    /* SKIP, SKIP_ARG, THEN, THEN_ARG         */
243    0, 0, 0, 0, 0                  /* COMMIT, FAIL, ACCEPT, CLOSE, SKIPZERO  */    0, 0, 0, 0,                    /* COMMIT, FAIL, ACCEPT, ASSERT_ACCEPT    */
244      0, 0                           /* CLOSE, SKIPZERO                        */
245  };  };
246    
247  /* These 2 tables allow for compact code for testing for \D, \d, \S, \s, \W,  /* These 2 tables allow for compact code for testing for \D, \d, \S, \s, \W,
# Line 252  these structures in, is a vector of ints Line 272  these structures in, is a vector of ints
272  typedef struct stateblock {  typedef struct stateblock {
273    int offset;                     /* Offset to opcode */    int offset;                     /* Offset to opcode */
274    int count;                      /* Count for repeats */    int count;                      /* Count for repeats */
   int ims;                        /* ims flag bits */  
275    int data;                       /* Some use extra data */    int data;                       /* Some use extra data */
276  } stateblock;  } stateblock;
277    
# Line 308  Arguments: Line 327  Arguments:
327    offsetcount       size of same    offsetcount       size of same
328    workspace         vector of workspace    workspace         vector of workspace
329    wscount           size of same    wscount           size of same
   ims               the current ims flags  
330    rlevel            function call recursion level    rlevel            function call recursion level
   recursing         regex recursive call level  
331    
332  Returns:            > 0 => number of match offset pairs placed in offsets  Returns:            > 0 => number of match offset pairs placed in offsets
333                      = 0 => offsets overflowed; longest matches are present                      = 0 => offsets overflowed; longest matches are present
# Line 325  for the current character, one for the f Line 342  for the current character, one for the f
342      { \      { \
343      next_active_state->offset = (x); \      next_active_state->offset = (x); \
344      next_active_state->count  = (y); \      next_active_state->count  = (y); \
     next_active_state->ims    = ims; \  
345      next_active_state++; \      next_active_state++; \
346      DPRINTF(("%.*sADD_ACTIVE(%d,%d)\n", rlevel*2-2, SP, (x), (y))); \      DPRINTF(("%.*sADD_ACTIVE(%d,%d)\n", rlevel*2-2, SP, (x), (y))); \
347      } \      } \
# Line 336  for the current character, one for the f Line 352  for the current character, one for the f
352      { \      { \
353      next_active_state->offset = (x); \      next_active_state->offset = (x); \
354      next_active_state->count  = (y); \      next_active_state->count  = (y); \
     next_active_state->ims    = ims; \  
355      next_active_state->data   = (z); \      next_active_state->data   = (z); \
356      next_active_state++; \      next_active_state++; \
357      DPRINTF(("%.*sADD_ACTIVE_DATA(%d,%d,%d)\n", rlevel*2-2, SP, (x), (y), (z))); \      DPRINTF(("%.*sADD_ACTIVE_DATA(%d,%d,%d)\n", rlevel*2-2, SP, (x), (y), (z))); \
# Line 348  for the current character, one for the f Line 363  for the current character, one for the f
363      { \      { \
364      next_new_state->offset = (x); \      next_new_state->offset = (x); \
365      next_new_state->count  = (y); \      next_new_state->count  = (y); \
     next_new_state->ims    = ims; \  
366      next_new_state++; \      next_new_state++; \
367      DPRINTF(("%.*sADD_NEW(%d,%d)\n", rlevel*2-2, SP, (x), (y))); \      DPRINTF(("%.*sADD_NEW(%d,%d)\n", rlevel*2-2, SP, (x), (y))); \
368      } \      } \
# Line 359  for the current character, one for the f Line 373  for the current character, one for the f
373      { \      { \
374      next_new_state->offset = (x); \      next_new_state->offset = (x); \
375      next_new_state->count  = (y); \      next_new_state->count  = (y); \
     next_new_state->ims    = ims; \  
376      next_new_state->data   = (z); \      next_new_state->data   = (z); \
377      next_new_state++; \      next_new_state++; \
378      DPRINTF(("%.*sADD_NEW_DATA(%d,%d,%d)\n", rlevel*2-2, SP, (x), (y), (z))); \      DPRINTF(("%.*sADD_NEW_DATA(%d,%d,%d)\n", rlevel*2-2, SP, (x), (y), (z))); \
# Line 378  internal_dfa_exec( Line 391  internal_dfa_exec(
391    int offsetcount,    int offsetcount,
392    int *workspace,    int *workspace,
393    int wscount,    int wscount,
394    int ims,    int  rlevel)
   int  rlevel,  
   int  recursing)  
395  {  {
396  stateblock *active_states, *new_states, *temp_states;  stateblock *active_states, *new_states, *temp_states;
397  stateblock *next_active_state, *next_new_state;  stateblock *next_active_state, *next_new_state;
# Line 389  const uschar *ctypes, *lcc, *fcc; Line 400  const uschar *ctypes, *lcc, *fcc;
400  const uschar *ptr;  const uschar *ptr;
401  const uschar *end_code, *first_op;  const uschar *end_code, *first_op;
402    
403    dfa_recursion_info new_recursive;
404    
405  int active_count, new_count, match_count;  int active_count, new_count, match_count;
406    
407  /* Some fields in the md block are frequently referenced, so we load them into  /* Some fields in the md block are frequently referenced, so we load them into
# Line 412  wscount = (wscount - (wscount % (INTS_PE Line 425  wscount = (wscount - (wscount % (INTS_PE
425            (2 * INTS_PER_STATEBLOCK);            (2 * INTS_PER_STATEBLOCK);
426    
427  DPRINTF(("\n%.*s---------------------\n"  DPRINTF(("\n%.*s---------------------\n"
428    "%.*sCall to internal_dfa_exec f=%d r=%d\n",    "%.*sCall to internal_dfa_exec f=%d\n",
429    rlevel*2-2, SP, rlevel*2-2, SP, rlevel, recursing));    rlevel*2-2, SP, rlevel*2-2, SP, rlevel));
430    
431  ctypes = md->tables + ctypes_offset;  ctypes = md->tables + ctypes_offset;
432  lcc = md->tables + lcc_offset;  lcc = md->tables + lcc_offset;
# Line 426  next_new_state = new_states = active_sta Line 439  next_new_state = new_states = active_sta
439  new_count = 0;  new_count = 0;
440    
441  first_op = this_start_code + 1 + LINK_SIZE +  first_op = this_start_code + 1 + LINK_SIZE +
442    ((*this_start_code == OP_CBRA || *this_start_code == OP_SCBRA)? 2:0);    ((*this_start_code == OP_CBRA || *this_start_code == OP_SCBRA ||
443        *this_start_code == OP_CBRAPOS || *this_start_code == OP_SCBRAPOS)? 2:0);
444    
445  /* The first thing in any (sub) pattern is a bracket of some sort. Push all  /* The first thing in any (sub) pattern is a bracket of some sort. Push all
446  the alternative states onto the list, and find out where the end is. This  the alternative states onto the list, and find out where the end is. This
# Line 525  else Line 539  else
539    else    else
540      {      {
541      int length = 1 + LINK_SIZE +      int length = 1 + LINK_SIZE +
542        ((*this_start_code == OP_CBRA || *this_start_code == OP_SCBRA)? 2:0);        ((*this_start_code == OP_CBRA || *this_start_code == OP_SCBRA ||
543            *this_start_code == OP_CBRAPOS || *this_start_code == OP_SCBRAPOS)?
544            2:0);
545      do      do
546        {        {
547        ADD_NEW((int)(end_code - start_code + length), 0);        ADD_NEW((int)(end_code - start_code + length), 0);
# Line 605  for (;;) Line 621  for (;;)
621    for (i = 0; i < active_count; i++)    for (i = 0; i < active_count; i++)
622      {      {
623      stateblock *current_state = active_states + i;      stateblock *current_state = active_states + i;
624        BOOL caseless = FALSE;
625      const uschar *code;      const uschar *code;
626      int state_offset = current_state->offset;      int state_offset = current_state->offset;
627      int count, codevalue, rrc;      int count, codevalue, rrc;
# Line 616  for (;;) Line 633  for (;;)
633          else printf("0x%02x\n", c);          else printf("0x%02x\n", c);
634  #endif  #endif
635    
     /* This variable is referred to implicity in the ADD_xxx macros. */  
   
     ims = current_state->ims;  
   
636      /* A negative offset is a special case meaning "hold off going to this      /* A negative offset is a special case meaning "hold off going to this
637      (negated) state until the number of characters in the data field have      (negated) state until the number of characters in the data field have
638      been skipped". */      been skipped". */
# Line 725  for (;;) Line 738  for (;;)
738    
739  /* ========================================================================== */  /* ========================================================================== */
740        /* Reached a closing bracket. If not at the end of the pattern, carry        /* Reached a closing bracket. If not at the end of the pattern, carry
741        on with the next opcode. Otherwise, unless we have an empty string and        on with the next opcode. For repeating opcodes, also add the repeat
742          state. Note that KETRPOS will always be encountered at the end of the
743          subpattern, because the possessive subpattern repeats are always handled
744          using recursive calls. Thus, it never adds any new states.
745    
746          At the end of the (sub)pattern, unless we have an empty string and
747        PCRE_NOTEMPTY is set, or PCRE_NOTEMPTY_ATSTART is set and we are at the        PCRE_NOTEMPTY is set, or PCRE_NOTEMPTY_ATSTART is set and we are at the
748        start of the subject, save the match data, shifting up all previous        start of the subject, save the match data, shifting up all previous
749        matches so we always have the longest first. */        matches so we always have the longest first. */
# Line 733  for (;;) Line 751  for (;;)
751        case OP_KET:        case OP_KET:
752        case OP_KETRMIN:        case OP_KETRMIN:
753        case OP_KETRMAX:        case OP_KETRMAX:
754          case OP_KETRPOS:
755        if (code != end_code)        if (code != end_code)
756          {          {
757          ADD_ACTIVE(state_offset + 1 + LINK_SIZE, 0);          ADD_ACTIVE(state_offset + 1 + LINK_SIZE, 0);
# Line 822  for (;;) Line 841  for (;;)
841    
842        /*-----------------------------------------------------------------*/        /*-----------------------------------------------------------------*/
843        case OP_CIRC:        case OP_CIRC:
844          if (ptr == start_subject && (md->moptions & PCRE_NOTBOL) == 0)
845            { ADD_ACTIVE(state_offset + 1, 0); }
846          break;
847    
848          /*-----------------------------------------------------------------*/
849          case OP_CIRCM:
850        if ((ptr == start_subject && (md->moptions & PCRE_NOTBOL) == 0) ||        if ((ptr == start_subject && (md->moptions & PCRE_NOTBOL) == 0) ||
851            ((ims & PCRE_MULTILINE) != 0 &&            (ptr != end_subject && WAS_NEWLINE(ptr)))
             ptr != end_subject &&  
             WAS_NEWLINE(ptr)))  
852          { ADD_ACTIVE(state_offset + 1, 0); }          { ADD_ACTIVE(state_offset + 1, 0); }
853        break;        break;
854    
855        /*-----------------------------------------------------------------*/        /*-----------------------------------------------------------------*/
856        case OP_EOD:        case OP_EOD:
857        if (ptr >= end_subject)        if (ptr >= end_subject)
858          {          {
859          if ((md->moptions & PCRE_PARTIAL_HARD) != 0)          if ((md->moptions & PCRE_PARTIAL_HARD) != 0)
860            could_continue = TRUE;            could_continue = TRUE;
861          else { ADD_ACTIVE(state_offset + 1, 0); }          else { ADD_ACTIVE(state_offset + 1, 0); }
# Line 840  for (;;) Line 863  for (;;)
863        break;        break;
864    
865        /*-----------------------------------------------------------------*/        /*-----------------------------------------------------------------*/
       case OP_OPT:  
       ims = code[1];  
       ADD_ACTIVE(state_offset + 2, 0);  
       break;  
   
       /*-----------------------------------------------------------------*/  
866        case OP_SOD:        case OP_SOD:
867        if (ptr == start_subject) { ADD_ACTIVE(state_offset + 1, 0); }        if (ptr == start_subject) { ADD_ACTIVE(state_offset + 1, 0); }
868        break;        break;
# Line 890  for (;;) Line 907  for (;;)
907            could_continue = TRUE;            could_continue = TRUE;
908          else if (clen == 0 ||          else if (clen == 0 ||
909              ((md->poptions & PCRE_DOLLAR_ENDONLY) == 0 && IS_NEWLINE(ptr) &&              ((md->poptions & PCRE_DOLLAR_ENDONLY) == 0 && IS_NEWLINE(ptr) &&
910                 ((ims & PCRE_MULTILINE) != 0 || ptr == end_subject - md->nllen)                 (ptr == end_subject - md->nllen)
911              ))              ))
912            { ADD_ACTIVE(state_offset + 1, 0); }            { ADD_ACTIVE(state_offset + 1, 0); }
913          }          }
914        else if ((ims & PCRE_MULTILINE) != 0 && IS_NEWLINE(ptr))        break;
915    
916          /*-----------------------------------------------------------------*/
917          case OP_DOLLM:
918          if ((md->moptions & PCRE_NOTEOL) == 0)
919            {
920            if (clen == 0 && (md->moptions & PCRE_PARTIAL_HARD) != 0)
921              could_continue = TRUE;
922            else if (clen == 0 ||
923                ((md->poptions & PCRE_DOLLAR_ENDONLY) == 0 && IS_NEWLINE(ptr)))
924              { ADD_ACTIVE(state_offset + 1, 0); }
925            }
926          else if (IS_NEWLINE(ptr))
927          { ADD_ACTIVE(state_offset + 1, 0); }          { ADD_ACTIVE(state_offset + 1, 0); }
928        break;        break;
929    
# Line 1950  for (;;) Line 1979  for (;;)
1979        break;        break;
1980    
1981        /*-----------------------------------------------------------------*/        /*-----------------------------------------------------------------*/
1982        case OP_CHARNC:        case OP_CHARI:
1983        if (clen == 0) break;        if (clen == 0) break;
1984    
1985  #ifdef SUPPORT_UTF8  #ifdef SUPPORT_UTF8
# Line 2136  for (;;) Line 2165  for (;;)
2165        break;        break;
2166    
2167        /*-----------------------------------------------------------------*/        /*-----------------------------------------------------------------*/
2168        /* Match a negated single character. This is only used for one-byte        /* Match a negated single character casefully. This is only used for
2169        characters, that is, we know that d < 256. The character we are        one-byte characters, that is, we know that d < 256. The character we are
2170        checking (c) can be multibyte. */        checking (c) can be multibyte. */
2171    
2172        case OP_NOT:        case OP_NOT:
2173        if (clen > 0)        if (clen > 0 && c != d) { ADD_NEW(state_offset + dlen + 1, 0); }
2174          {        break;
2175          unsigned int otherd = ((ims & PCRE_CASELESS) != 0)? fcc[d] : d;  
2176          if (c != d && c != otherd) { ADD_NEW(state_offset + dlen + 1, 0); }        /*-----------------------------------------------------------------*/
2177          }        /* Match a negated single character caselessly. This is only used for
2178          one-byte characters, that is, we know that d < 256. The character we are
2179          checking (c) can be multibyte. */
2180    
2181          case OP_NOTI:
2182          if (clen > 0 && c != d && c != fcc[d])
2183            { ADD_NEW(state_offset + dlen + 1, 0); }
2184        break;        break;
2185    
2186        /*-----------------------------------------------------------------*/        /*-----------------------------------------------------------------*/
2187          case OP_PLUSI:
2188          case OP_MINPLUSI:
2189          case OP_POSPLUSI:
2190          case OP_NOTPLUSI:
2191          case OP_NOTMINPLUSI:
2192          case OP_NOTPOSPLUSI:
2193          caseless = TRUE;
2194          codevalue -= OP_STARI - OP_STAR;
2195    
2196          /* Fall through */
2197        case OP_PLUS:        case OP_PLUS:
2198        case OP_MINPLUS:        case OP_MINPLUS:
2199        case OP_POSPLUS:        case OP_POSPLUS:
# Line 2160  for (;;) Line 2205  for (;;)
2205        if (clen > 0)        if (clen > 0)
2206          {          {
2207          unsigned int otherd = NOTACHAR;          unsigned int otherd = NOTACHAR;
2208          if ((ims & PCRE_CASELESS) != 0)          if (caseless)
2209            {            {
2210  #ifdef SUPPORT_UTF8  #ifdef SUPPORT_UTF8
2211            if (utf8 && d >= 128)            if (utf8 && d >= 128)
# Line 2188  for (;;) Line 2233  for (;;)
2233        break;        break;
2234    
2235        /*-----------------------------------------------------------------*/        /*-----------------------------------------------------------------*/
2236          case OP_QUERYI:
2237          case OP_MINQUERYI:
2238          case OP_POSQUERYI:
2239          case OP_NOTQUERYI:
2240          case OP_NOTMINQUERYI:
2241          case OP_NOTPOSQUERYI:
2242          caseless = TRUE;
2243          codevalue -= OP_STARI - OP_STAR;
2244          /* Fall through */
2245        case OP_QUERY:        case OP_QUERY:
2246        case OP_MINQUERY:        case OP_MINQUERY:
2247        case OP_POSQUERY:        case OP_POSQUERY:
# Line 2198  for (;;) Line 2252  for (;;)
2252        if (clen > 0)        if (clen > 0)
2253          {          {
2254          unsigned int otherd = NOTACHAR;          unsigned int otherd = NOTACHAR;
2255          if ((ims & PCRE_CASELESS) != 0)          if (caseless)
2256            {            {
2257  #ifdef SUPPORT_UTF8  #ifdef SUPPORT_UTF8
2258            if (utf8 && d >= 128)            if (utf8 && d >= 128)
# Line 2224  for (;;) Line 2278  for (;;)
2278        break;        break;
2279    
2280        /*-----------------------------------------------------------------*/        /*-----------------------------------------------------------------*/
2281          case OP_STARI:
2282          case OP_MINSTARI:
2283          case OP_POSSTARI:
2284          case OP_NOTSTARI:
2285          case OP_NOTMINSTARI:
2286          case OP_NOTPOSSTARI:
2287          caseless = TRUE;
2288          codevalue -= OP_STARI - OP_STAR;
2289          /* Fall through */
2290        case OP_STAR:        case OP_STAR:
2291        case OP_MINSTAR:        case OP_MINSTAR:
2292        case OP_POSSTAR:        case OP_POSSTAR:
# Line 2234  for (;;) Line 2297  for (;;)
2297        if (clen > 0)        if (clen > 0)
2298          {          {
2299          unsigned int otherd = NOTACHAR;          unsigned int otherd = NOTACHAR;
2300          if ((ims & PCRE_CASELESS) != 0)          if (caseless)
2301            {            {
2302  #ifdef SUPPORT_UTF8  #ifdef SUPPORT_UTF8
2303            if (utf8 && d >= 128)            if (utf8 && d >= 128)
# Line 2260  for (;;) Line 2323  for (;;)
2323        break;        break;
2324    
2325        /*-----------------------------------------------------------------*/        /*-----------------------------------------------------------------*/
2326          case OP_EXACTI:
2327          case OP_NOTEXACTI:
2328          caseless = TRUE;
2329          codevalue -= OP_STARI - OP_STAR;
2330          /* Fall through */
2331        case OP_EXACT:        case OP_EXACT:
2332        case OP_NOTEXACT:        case OP_NOTEXACT:
2333        count = current_state->count;  /* Number already matched */        count = current_state->count;  /* Number already matched */
2334        if (clen > 0)        if (clen > 0)
2335          {          {
2336          unsigned int otherd = NOTACHAR;          unsigned int otherd = NOTACHAR;
2337          if ((ims & PCRE_CASELESS) != 0)          if (caseless)
2338            {            {
2339  #ifdef SUPPORT_UTF8  #ifdef SUPPORT_UTF8
2340            if (utf8 && d >= 128)            if (utf8 && d >= 128)
# Line 2290  for (;;) Line 2358  for (;;)
2358        break;        break;
2359    
2360        /*-----------------------------------------------------------------*/        /*-----------------------------------------------------------------*/
2361          case OP_UPTOI:
2362          case OP_MINUPTOI:
2363          case OP_POSUPTOI:
2364          case OP_NOTUPTOI:
2365          case OP_NOTMINUPTOI:
2366          case OP_NOTPOSUPTOI:
2367          caseless = TRUE;
2368          codevalue -= OP_STARI - OP_STAR;
2369          /* Fall through */
2370        case OP_UPTO:        case OP_UPTO:
2371        case OP_MINUPTO:        case OP_MINUPTO:
2372        case OP_POSUPTO:        case OP_POSUPTO:
# Line 2301  for (;;) Line 2378  for (;;)
2378        if (clen > 0)        if (clen > 0)
2379          {          {
2380          unsigned int otherd = NOTACHAR;          unsigned int otherd = NOTACHAR;
2381          if ((ims & PCRE_CASELESS) != 0)          if (caseless)
2382            {            {
2383  #ifdef SUPPORT_UTF8  #ifdef SUPPORT_UTF8
2384            if (utf8 && d >= 128)            if (utf8 && d >= 128)
# Line 2444  for (;;) Line 2521  for (;;)
2521            sizeof(local_offsets)/sizeof(int),    /* size of same */            sizeof(local_offsets)/sizeof(int),    /* size of same */
2522            local_workspace,                      /* workspace vector */            local_workspace,                      /* workspace vector */
2523            sizeof(local_workspace)/sizeof(int),  /* size of same */            sizeof(local_workspace)/sizeof(int),  /* size of same */
2524            ims,                                  /* the current ims flags */            rlevel);                              /* function recursion level */
           rlevel,                               /* function recursion level */  
           recursing);                           /* pass on regex recursion */  
2525    
2526          if (rc == PCRE_ERROR_DFA_UITEM) return rc;          if (rc == PCRE_ERROR_DFA_UITEM) return rc;
2527          if ((rc >= 0) == (codevalue == OP_ASSERT || codevalue == OP_ASSERTBACK))          if ((rc >= 0) == (codevalue == OP_ASSERT || codevalue == OP_ASSERTBACK))
# Line 2511  for (;;) Line 2586  for (;;)
2586            {            {
2587            int value = GET2(code, LINK_SIZE+2);            int value = GET2(code, LINK_SIZE+2);
2588            if (value != RREF_ANY) return PCRE_ERROR_DFA_UCOND;            if (value != RREF_ANY) return PCRE_ERROR_DFA_UCOND;
2589            if (recursing > 0)            if (md->recursive != NULL)
2590              { ADD_ACTIVE(state_offset + LINK_SIZE + 4, 0); }              { ADD_ACTIVE(state_offset + LINK_SIZE + 4, 0); }
2591            else { ADD_ACTIVE(state_offset + codelink + LINK_SIZE + 1, 0); }            else { ADD_ACTIVE(state_offset + codelink + LINK_SIZE + 1, 0); }
2592            }            }
# Line 2535  for (;;) Line 2610  for (;;)
2610              sizeof(local_offsets)/sizeof(int),    /* size of same */              sizeof(local_offsets)/sizeof(int),    /* size of same */
2611              local_workspace,                      /* workspace vector */              local_workspace,                      /* workspace vector */
2612              sizeof(local_workspace)/sizeof(int),  /* size of same */              sizeof(local_workspace)/sizeof(int),  /* size of same */
2613              ims,                                  /* the current ims flags */              rlevel);                              /* function recursion level */
             rlevel,                               /* function recursion level */  
             recursing);                           /* pass on regex recursion */  
2614    
2615            if (rc == PCRE_ERROR_DFA_UITEM) return rc;            if (rc == PCRE_ERROR_DFA_UITEM) return rc;
2616            if ((rc >= 0) ==            if ((rc >= 0) ==
# Line 2552  for (;;) Line 2625  for (;;)
2625        /*-----------------------------------------------------------------*/        /*-----------------------------------------------------------------*/
2626        case OP_RECURSE:        case OP_RECURSE:
2627          {          {
2628            dfa_recursion_info *ri;
2629          int local_offsets[1000];          int local_offsets[1000];
2630          int local_workspace[1000];          int local_workspace[1000];
2631            const uschar *callpat = start_code + GET(code, 1);
2632            int recno = (callpat == md->start_code)? 0 :
2633              GET2(callpat, 1 + LINK_SIZE);
2634          int rc;          int rc;
2635    
2636          DPRINTF(("%.*sStarting regex recursion %d\n", rlevel*2-2, SP,          DPRINTF(("%.*sStarting regex recursion\n", rlevel*2-2, SP));
2637            recursing + 1));  
2638            /* Check for repeating a recursion without advancing the subject
2639            pointer. This should catch convoluted mutual recursions. (Some simple
2640            cases are caught at compile time.) */
2641    
2642            for (ri = md->recursive; ri != NULL; ri = ri->prevrec)
2643              if (recno == ri->group_num && ptr == ri->subject_position)
2644                return PCRE_ERROR_RECURSELOOP;
2645    
2646            /* Remember this recursion and where we started it so as to
2647            catch infinite loops. */
2648    
2649            new_recursive.group_num = recno;
2650            new_recursive.subject_position = ptr;
2651            new_recursive.prevrec = md->recursive;
2652            md->recursive = &new_recursive;
2653    
2654          rc = internal_dfa_exec(          rc = internal_dfa_exec(
2655            md,                                   /* fixed match data */            md,                                   /* fixed match data */
2656            start_code + GET(code, 1),            /* this subexpression's code */            callpat,                              /* this subexpression's code */
2657            ptr,                                  /* where we currently are */            ptr,                                  /* where we currently are */
2658            (int)(ptr - start_subject),           /* start offset */            (int)(ptr - start_subject),           /* start offset */
2659            local_offsets,                        /* offset vector */            local_offsets,                        /* offset vector */
2660            sizeof(local_offsets)/sizeof(int),    /* size of same */            sizeof(local_offsets)/sizeof(int),    /* size of same */
2661            local_workspace,                      /* workspace vector */            local_workspace,                      /* workspace vector */
2662            sizeof(local_workspace)/sizeof(int),  /* size of same */            sizeof(local_workspace)/sizeof(int),  /* size of same */
2663            ims,                                  /* the current ims flags */            rlevel);                              /* function recursion level */
2664            rlevel,                               /* function recursion level */  
2665            recursing + 1);                       /* regex recurse level */          md->recursive = new_recursive.prevrec;  /* Done this recursion */
2666    
2667          DPRINTF(("%.*sReturn from regex recursion %d: rc=%d\n", rlevel*2-2, SP,          DPRINTF(("%.*sReturn from regex recursion: rc=%d\n", rlevel*2-2, SP,
2668            recursing + 1, rc));            rc));
2669    
2670          /* Ran out of internal offsets */          /* Ran out of internal offsets */
2671    
# Line 2606  for (;;) Line 2698  for (;;)
2698        break;        break;
2699    
2700        /*-----------------------------------------------------------------*/        /*-----------------------------------------------------------------*/
2701          case OP_BRAPOS:
2702          case OP_SBRAPOS:
2703          case OP_CBRAPOS:
2704          case OP_SCBRAPOS:
2705          case OP_BRAPOSZERO:
2706            {
2707            int charcount, matched_count;
2708            const uschar *local_ptr = ptr;
2709            BOOL allow_zero;
2710    
2711            if (codevalue == OP_BRAPOSZERO)
2712              {
2713              allow_zero = TRUE;
2714              codevalue = *(++code);  /* Codevalue will be one of above BRAs */
2715              }
2716            else allow_zero = FALSE;
2717    
2718            /* Loop to match the subpattern as many times as possible as if it were
2719            a complete pattern. */
2720    
2721            for (matched_count = 0;; matched_count++)
2722              {
2723              int local_offsets[2];
2724              int local_workspace[1000];
2725    
2726              int rc = internal_dfa_exec(
2727                md,                                   /* fixed match data */
2728                code,                                 /* this subexpression's code */
2729                local_ptr,                            /* where we currently are */
2730                (int)(ptr - start_subject),           /* start offset */
2731                local_offsets,                        /* offset vector */
2732                sizeof(local_offsets)/sizeof(int),    /* size of same */
2733                local_workspace,                      /* workspace vector */
2734                sizeof(local_workspace)/sizeof(int),  /* size of same */
2735                rlevel);                              /* function recursion level */
2736    
2737              /* Failed to match */
2738    
2739              if (rc < 0)
2740                {
2741                if (rc != PCRE_ERROR_NOMATCH) return rc;
2742                break;
2743                }
2744    
2745              /* Matched: break the loop if zero characters matched. */
2746    
2747              charcount = local_offsets[1] - local_offsets[0];
2748              if (charcount == 0) break;
2749              local_ptr += charcount;    /* Advance temporary position ptr */
2750              }
2751    
2752            /* At this point we have matched the subpattern matched_count
2753            times, and local_ptr is pointing to the character after the end of the
2754            last match. */
2755    
2756            if (matched_count > 0 || allow_zero)
2757              {
2758              const uschar *end_subpattern = code;
2759              int next_state_offset;
2760    
2761              do { end_subpattern += GET(end_subpattern, 1); }
2762                while (*end_subpattern == OP_ALT);
2763              next_state_offset =
2764                (int)(end_subpattern - start_code + LINK_SIZE + 1);
2765    
2766              /* Optimization: if there are no more active states, and there
2767              are no new states yet set up, then skip over the subject string
2768              right here, to save looping. Otherwise, set up the new state to swing
2769              into action when the end of the matched substring is reached. */
2770    
2771              if (i + 1 >= active_count && new_count == 0)
2772                {
2773                ptr = local_ptr;
2774                clen = 0;
2775                ADD_NEW(next_state_offset, 0);
2776                }
2777              else
2778                {
2779                const uschar *p = ptr;
2780                const uschar *pp = local_ptr;
2781                charcount = pp - p;
2782                while (p < pp) if ((*p++ & 0xc0) == 0x80) charcount--;
2783                ADD_NEW_DATA(-next_state_offset, 0, (charcount - 1));
2784                }
2785              }
2786            }
2787          break;
2788    
2789          /*-----------------------------------------------------------------*/
2790        case OP_ONCE:        case OP_ONCE:
2791          {          {
2792          int local_offsets[2];          int local_offsets[2];
# Line 2620  for (;;) Line 2801  for (;;)
2801            sizeof(local_offsets)/sizeof(int),    /* size of same */            sizeof(local_offsets)/sizeof(int),    /* size of same */
2802            local_workspace,                      /* workspace vector */            local_workspace,                      /* workspace vector */
2803            sizeof(local_workspace)/sizeof(int),  /* size of same */            sizeof(local_workspace)/sizeof(int),  /* size of same */
2804            ims,                                  /* the current ims flags */            rlevel);                              /* function recursion level */
           rlevel,                               /* function recursion level */  
           recursing);                           /* pass on regex recursion */  
2805    
2806          if (rc >= 0)          if (rc >= 0)
2807            {            {
# Line 2656  for (;;) Line 2835  for (;;)
2835            /* Optimization: if there are no more active states, and there            /* Optimization: if there are no more active states, and there
2836            are no new states yet set up, then skip over the subject string            are no new states yet set up, then skip over the subject string
2837            right here, to save looping. Otherwise, set up the new state to swing            right here, to save looping. Otherwise, set up the new state to swing
2838            into action when the end of the substring is reached. */            into action when the end of the matched substring is reached. */
2839    
2840            else if (i + 1 >= active_count && new_count == 0)            else if (i + 1 >= active_count && new_count == 0)
2841              {              {
# Line 2686  for (;;) Line 2865  for (;;)
2865              if (repeat_state_offset >= 0)              if (repeat_state_offset >= 0)
2866                { ADD_NEW_DATA(-repeat_state_offset, 0, (charcount - 1)); }                { ADD_NEW_DATA(-repeat_state_offset, 0, (charcount - 1)); }
2867              }              }
   
2868            }            }
2869          else if (rc != PCRE_ERROR_NOMATCH) return rc;          else if (rc != PCRE_ERROR_NOMATCH) return rc;
2870          }          }
# Line 2963  back the character offset. */ Line 3141  back the character offset. */
3141  #ifdef SUPPORT_UTF8  #ifdef SUPPORT_UTF8
3142  if (utf8 && (options & PCRE_NO_UTF8_CHECK) == 0)  if (utf8 && (options & PCRE_NO_UTF8_CHECK) == 0)
3143    {    {
3144    if (_pcre_valid_utf8((uschar *)subject, length) >= 0)    int erroroffset;
3145      return PCRE_ERROR_BADUTF8;    int errorcode = _pcre_valid_utf8((uschar *)subject, length, &erroroffset);
3146    if (start_offset > 0 && start_offset < length)    if (errorcode != 0)
3147      {      {
3148      int tb = ((USPTR)subject)[start_offset] & 0xc0;      if (offsetcount >= 2)
3149      if (tb == 0x80) return PCRE_ERROR_BADUTF8_OFFSET;        {
3150      }        offsets[0] = erroroffset;
3151          offsets[1] = errorcode;
3152          }
3153        return (errorcode <= PCRE_UTF8_ERR5 && (options & PCRE_PARTIAL_HARD) != 0)?
3154          PCRE_ERROR_SHORTUTF8 : PCRE_ERROR_BADUTF8;
3155        }
3156      if (start_offset > 0 && start_offset < length &&
3157            (((USPTR)subject)[start_offset] & 0xc0) == 0x80)
3158        return PCRE_ERROR_BADUTF8_OFFSET;
3159    }    }
3160  #endif  #endif
3161    
# Line 3055  for (;;) Line 3241  for (;;)
3241    
3242      /* There are some optimizations that avoid running the match if a known      /* There are some optimizations that avoid running the match if a known
3243      starting point is not found. However, there is an option that disables      starting point is not found. However, there is an option that disables
3244      these, for testing and for ensuring that all callouts do actually occur. */      these, for testing and for ensuring that all callouts do actually occur.
3245        The option can be set in the regex by (*NO_START_OPT) or passed in
3246        match-time options. */
3247    
3248      if ((options & PCRE_NO_START_OPTIMIZE) == 0)      if (((options | re->options) & PCRE_NO_START_OPTIMIZE) == 0)
3249        {        {
3250        /* Advance to a known first byte. */        /* Advance to a known first byte. */
3251    
# Line 3205  for (;;) Line 3393  for (;;)
3393    /* OK, now we can do the business */    /* OK, now we can do the business */
3394    
3395    md->start_used_ptr = current_subject;    md->start_used_ptr = current_subject;
3396      md->recursive = NULL;
3397    
3398    rc = internal_dfa_exec(    rc = internal_dfa_exec(
3399      md,                                /* fixed match data */      md,                                /* fixed match data */
# Line 3215  for (;;) Line 3404  for (;;)
3404      offsetcount,                       /* size of same */      offsetcount,                       /* size of same */
3405      workspace,                         /* workspace vector */      workspace,                         /* workspace vector */
3406      wscount,                           /* size of same */      wscount,                           /* size of same */
3407      re->options & (PCRE_CASELESS|PCRE_MULTILINE|PCRE_DOTALL), /* ims flags */      0);                                /* function recurse level */
     0,                                 /* function recurse level */  
     0);                                /* regex recurse level */  
3408    
3409    /* Anything other than "no match" means we are done, always; otherwise, carry    /* Anything other than "no match" means we are done, always; otherwise, carry
3410    on only if not anchored. */    on only if not anchored. */

Legend:
Removed from v.567  
changed lines
  Added in v.642

webmaster@exim.org
ViewVC Help
Powered by ViewVC 1.1.12