Diff for /parser3/src/main/pa_string.C between versions 1.136 and 1.176

version 1.136, 2001/12/25 09:00:28 version 1.176, 2003/09/25 09:15:03
Line 1 Line 1
 /** @file  /** @file
         Parser: string class. @see untasize_t.C.          Parser: string class. @see untalength_t.C.
   
         Copyright (c) 2001 ArtLebedev Group (http://www.artlebedev.com)          Copyright (c) 2001-2003 ArtLebedev Group (http://www.artlebedev.com)
         Author: Alexander Petrosyan <paf@design.ru> (http://paf.design.ru)          Author: Alexandr Petrosian <paf@design.ru> (http://paf.design.ru)
   
         $Id$  
 */  */
   
   static const char* IDENT_STRING_C="$Date$";
   
 #include "pcre.h"  #include "pcre.h"
   
 #include "pa_pool.h"  
 #include "pa_string.h"  #include "pa_string.h"
 #include "pa_hash.h"  
 #include "pa_exception.h"  #include "pa_exception.h"
 #include "pa_common.h"  
 #include "pa_array.h"  
 #include "pa_globals.h"  
 #include "pa_table.h"  #include "pa_table.h"
 #include "pa_dictionary.h"  #include "pa_dictionary.h"
 #include "pa_charset.h"  #include "pa_charset.h"
   
 String::String(Pool& apool, const char *src, size_t src_size, bool tainted) :  // cord lib extension
         Pooled(apool) {  
         last_chunk=&head;  
         head.count=CR_PREALLOCATED_COUNT;  
         append_here=head.rows;  
         head_link=0;  
         link_row=&head.rows[head.count];  
   
         if(src)  
                 if(tainted)  
                         APPEND_TAINTED(src, src_size, 0, 0);  
                 else  
                         APPEND_CLEAN(src, src_size, 0, 0);  
 }  
   
 String::String(const String& src) :       
         Pooled(src.pool()) {  
         head.count=CR_PREALLOCATED_COUNT;  
           
         uint src_used_rows=src.used_rows();  
         if(src_used_rows<=head.count) {  
                 // all new rows fit size_to preallocated area  
                 last_chunk=&head;  
                 uint curr_chunk_rows=head.count;  
                 memcpy(head.rows, src.head.rows, sizeof(Chunk::Row)*src_used_rows);  
                 append_here=&head.rows[src_used_rows];  
                 link_row=&head.rows[curr_chunk_rows];  
         } else {  
                 // warning:   
                 //   heavily relies on the fact   
                 //   "preallocated area is the same for all strings"  
                 //  
                 // info:  
                 //   allocating only enough mem to fit src string rows  
                 //   next append would allocate a new chunk  
                 //  
                 // new rows don't fit size_to preallocated area: splitting size_to two chunks  
                 // preallocated chunk src to constructing head  
                 memcpy(head.rows, src.head.rows, sizeof(Chunk::Row)*head.count);  
                 // remaining rows size_to new_chunk  
                 uint curr_chunk_rows=src_used_rows-head.count;  
                 last_chunk=static_cast<Chunk *>(  
                         malloc(sizeof(uint)+sizeof(Chunk::Row)*curr_chunk_rows+sizeof(Chunk *), 9));  
                 last_chunk->count=curr_chunk_rows;  
                 head_link=last_chunk;  
                 append_here=link_row=&last_chunk->rows[last_chunk->count];  
   
                 Chunk *old_chunk=src.head_link;   
                 Chunk::Row *new_rows=last_chunk->rows;  
                 uint rows_left_to_copy=last_chunk->count;  
                 while(true) {  
                         uint old_count=old_chunk->count;  
                         Chunk *next_chunk=old_chunk->rows[old_count].link;  
                         if(next_chunk) {  
                                 // not last source chunk  
                                 // taking it all  
                                 memcpy(new_rows, old_chunk->rows, sizeof(Chunk::Row)*old_count);  
                                 new_rows+=old_count;  
                                 rows_left_to_copy-=old_count;  
   
                                 old_chunk=next_chunk;  
                         } else {  
                                 // the last source chunk  
                                 // taking only those rows of chunk that _left_to_copy  
                                 memcpy(new_rows, old_chunk->rows, sizeof(Chunk::Row)*rows_left_to_copy);  
                                 break;  
                         }  
                 }  
         }  
         link_row->link=0;  
         src_used_rows;  
 }  
   
 size_t  String::size() const {  
         size_t result=0;  
         STRING_FOREACH_ROW(  
                         result+=row->item.size;  
         );  
 break2:  
         return result;  
 }  
   
 /// @todo not very optimal  
 uint String::used_rows() const {  
         uint result=0;  
         STRING_FOREACH_ROW(  
                 result++;  
         );  
 break2:  
         return result;  
 }  
 void String::expand() {  
         uint new_chunk_count=last_chunk->count+CR_GROW_COUNT;  
         if(new_chunk_count>MAX_USHORT)  
                 new_chunk_count=MAX_USHORT;  
   
         last_chunk=static_cast<Chunk *>(  
                 malloc(sizeof(uint)+sizeof(Chunk::Row)*new_chunk_count+sizeof(Chunk *), 10));  
         last_chunk->count=new_chunk_count;  
         link_row->link=last_chunk;  
         append_here=last_chunk->rows;  
         link_row=&last_chunk->rows[last_chunk->count];  
         link_row->link=0;  
 }  
   
 String& String::real_append(STRING_APPEND_PARAMS) {  
         if(!src)  
                 return *this;  
         if(!size)  
                 size=strlen(src);  
         if(!size)  
                 return *this;  
   
         while(size>MAX_USHORT) {  #ifndef DOXYGEN
                 if(chunk_is_full())  typedef struct {
                         expand();      ssize_t countdown;
       char target;        /* Character we're looking for  */
                 append_here->item.ptr=src;  } chr_data;
                 append_here->item.size=MAX_USHORT;  
                 append_here->item.lang=lang;  
 #ifndef NO_STRING_ORIGIN  
                 append_here->item.origin.file=file;  
                 append_here->item.origin.line=line;  
 #endif  #endif
                 append_here++;  static int CORD_range_contains_chr_greater_then_proc(char c, size_t size, void* client_data)
   {
                 src+=MAX_USHORT;      register chr_data * d = (chr_data *)client_data;
                 size-=MAX_USHORT;      
       if (d -> countdown<=0) return(2);
       d -> countdown -= size;
       if (c > d -> target) return(1);
       return(0);
   }
   int CORD_range_contains_chr_greater_then(CORD x, size_t i, size_t n, int c)
   {
       chr_data d;
   
       d.countdown = n;
       d.target = c;
       return(CORD_block_iter(x, i, CORD_range_contains_chr_greater_then_proc, &d) == 1/*alternatives: 0 normally ended, 2=struck 'n'*/);
   }
   
   // helpers
   
   /// String::match uses this as replace & global search table columns
   
   const int MAX_MATCH_GROUPS=100;
   
   class String_match_table_template_columns: public ArrayString {
   public:
           String_match_table_template_columns() {
                   *this+=new String("prematch");
                   *this+=new String("match");
                   *this+=new String("postmatch");
                   for(int i=0; i<MAX_MATCH_GROUPS; i++) {
                           *this+=new String(String::Body::Format(1+i), String::L_CLEAN);
                   }
         }          }
   };
   
         if(chunk_is_full())  Table string_match_table_template(new String_match_table_template_columns);
                 expand();  
   
         append_here->item.ptr=src;  // String::Body methods
         append_here->item.size=size;  
         append_here->item.lang=lang;  
 #ifndef NO_STRING_ORIGIN  
         append_here->item.origin.file=file;  
         append_here->item.origin.line=line;  
 #endif  
         append_here++;  
   
         return *this;  String::Body String::Body::Format(int value) {
           char local[MAX_NUMBER];
           size_t length=snprintf(local, MAX_NUMBER, "%d", value);
           return String::Body(pa_strdup(local, length), length);
 }  }
   
 char String::first_char() const {  static int CORD_batched_iter_fn_generic_hash_code(char c, void * client_data) {
         if(!used_rows())          uint& result=*static_cast<uint*>(client_data);
                 throw Exception(0, 0,          generic_hash_code(result, c);
                         this,          return 0;
                         "getting first char of empty string");  
   
         return *head.rows[0].item.ptr;  
 }  }
   static int CORD_batched_iter_fn_generic_hash_code(const char*  s, void * client_data) {
 uint String::hash_code() const {          uint& result=*static_cast<uint*>(client_data);
           generic_hash_code(result, s);
           return 0;
   };
   uint String::Body::hash_code() const {
         uint result=0;          uint result=0;
         STRING_FOREACH_ROW(          CORD_iter5(body, 0,
                         result=Hash::generic_code(result, row->item.ptr, row->item.size);                  CORD_batched_iter_fn_generic_hash_code, 
         );                  CORD_batched_iter_fn_generic_hash_code, &result);
 break2:  
         return result;          return result;
 }  }
   
 /// @todo move 'lang' skipping to pos  // String methods
 int String::cmp(int& partial, const String& src,   
                                 size_t this_offset, Untaint_lang lang) const {  
         partial=-1;  
         size_t a_size=size();  
         this_offset=min(this_offset, a_size-1);  
   
         const Chunk *a_chunk=&head;  
         const Chunk *b_chunk=&src.head;  
         const Chunk::Row *a_row=a_chunk->rows;  
         const Chunk::Row *b_row=b_chunk->rows;  
         size_t a_offset=this_offset;  
         size_t b_offset=0;  
         Chunk::Row *a_end=append_here;  
         Chunk::Row *b_end=src.append_here;  
         uint a_countdown=a_chunk->count;  
         uint b_countdown=b_chunk->count;  
         int result;  
         size_t pos=0;   
   
         bool a_break=a_size==0;  
         bool b_break=src.size()==0;  
         if(!(a_break || b_break)) while(true) {  
                 if(pos+a_row->item.size > this_offset) {  
                         if(lang!=UL_UNSPECIFIED && a_row->item.lang>lang)   
                                 return -1; // wrong lang -- bail out  
   
                         int size_diff=  
                                 (a_row->item.size-a_offset)-  
                                 (b_row->item.size-b_offset);  
                           
                         if(size_diff==0) { // a has same size as b  
                                 result=memcmp(a_row->item.ptr+a_offset, b_row->item.ptr+b_offset,   
                                         a_row->item.size-a_offset);  
                                 if(result)  
                                         return result;  
                                 pos+=a_row->item.size;  
                                 a_row++; a_countdown--; a_offset=0;  
                                 b_row++; b_countdown--; b_offset=0;  
                         } else if (size_diff>0) { // a longer  
                                 result=memcmp(a_row->item.ptr+a_offset, b_row->item.ptr+b_offset,   
                                         b_row->item.size-b_offset);  
                                 if(result)  
                                         return result;  
                                 a_offset+=b_row->item.size-b_offset;  
                                 b_row++; b_countdown--; b_offset=0;  
                         } else { // b longer  
                                 result=memcmp(a_row->item.ptr+a_offset, b_row->item.ptr+b_offset,   
                                         a_row->item.size-a_offset);  
                                 if(result)  
                                         return result;  
                                 b_offset+=a_row->item.size-a_offset;  
                                 pos+=a_row->item.size;  
                                 a_row++; a_countdown--; a_offset=0;  
                         }  
                         if(b_break=b_row==b_end) {  
                                 a_break=a_row==a_end;  
                                 break;                    
                         }  
                         if(!b_countdown) {  
                                 b_chunk=b_row->link;  
                                 b_row=b_chunk->rows;  
                                 b_countdown=b_chunk->count;  
                         }  
                 } else {  
                         a_offset-=a_row->item.size;  
                         pos+=a_row->item.size;  
                         a_row++; a_countdown--;   
                 }  
   
                 if(a_break=a_row==a_end) {  String::String(const char* cstr, size_t helper_length, bool tainted): body(CORD_EMPTY) {
                         b_break=b_row==b_end;          append_help_length(cstr, helper_length, tainted?L_TAINTED:L_CLEAN);
                         break;  }
                 }  String::String(const String::C cstr, bool tainted): body(CORD_EMPTY) {
                 if(!a_countdown) {          append_know_length(cstr.str, cstr.length, tainted?L_TAINTED:L_CLEAN);
                         a_chunk=a_row->link;  
                         a_row=a_chunk->rows;  
                         a_countdown=a_chunk->count;  
                 }  
         }  
         if(a_break==b_break) { // ended simultaneously  
                 partial=0; return 0;  
         } else if(a_break) { // first bytes equal, but a ended before b  
                 partial=1; return -1;  
         } else {  
                 partial=2; return +1;  
         }  
 }  }
   
 /// @todo move 'lang' skipping to pos  String& String::append_know_length(const char* str, size_t known_length, Language lang) {
 int String::cmp(int& partial, const char* b_ptr, size_t src_size,           if(!known_length)
                                 size_t this_offset, Untaint_lang lang) const {                  return *this;
         partial=-1;  
         size_t a_size=size();  
         size_t b_size=src_size?src_size:b_ptr?strlen(b_ptr):0;  
         this_offset=min(this_offset, a_size-1);  
   
         const Chunk *a_chunk=&head;  
         const Chunk::Row *a_row=a_chunk->rows;  
         size_t a_offset=this_offset;  
         size_t b_offset=0;  
         Chunk::Row *a_end=append_here;  
         uint a_countdown=a_chunk->count;  
         size_t pos=0;  
   
         bool a_break=a_size==0;  
         bool b_break=b_size==0;  
         if(!(a_break || b_break)) while(true) {  
                 if(pos+a_row->item.size > this_offset) {  
                         if(lang!=UL_UNSPECIFIED && a_row->item.lang>lang)   
                                 return -1; // wrong lang -- bail out  
   
                         int size_diff=  
                                 (a_row->item.size-a_offset)-  
                                 (b_size-b_offset);  
                           
                         if(size_diff==0) { // a has same size as b  
                                 if(int result=memcmp(a_row->item.ptr+a_offset, b_ptr+b_offset,   
                                         a_row->item.size-a_offset)!=0)  
                                         return result;  
                                 pos+=a_row->item.size;  
                                 a_row++; a_countdown--; a_offset=0;  
                                 b_break=true;  
                         } else if (size_diff>0) { // a longer  
                                 if(int result=memcmp(a_row->item.ptr+a_offset, b_ptr+b_offset,   
                                         b_size-b_offset)!=0)  
                                         return result;  
                                 a_offset+=b_size-b_offset;  
                                 b_break=true;  
                         } else { // b longer  
                                 if(int result=memcmp(a_row->item.ptr+a_offset, b_ptr+b_offset,   
                                         a_row->item.size-a_offset)!=0)  
                                         return result;  
                                 b_offset+=a_row->item.size-a_offset;  
                                 pos+=a_row->item.size;  
                                 a_row++; a_countdown--; a_offset=0;  
                         }  
                 } else {  
                         a_offset-=a_row->item.size;   
                         pos+=a_row->item.size;  
                         a_row++; a_countdown--;   
                 }  
   
                 a_break=a_row==a_end;          // first: langs
                 if(a_break || b_break)          langs.append(body, lang, known_length);
                         break;          // next: letters themselves
                 if(!a_countdown) {          body.append_know_length(str, known_length);
                         a_chunk=a_row->link;  
                         a_row=a_chunk->rows;          ASSERT_STRING_INVARIANT(*this);
                         a_countdown=a_chunk->count;          return *this;
                 }  
         }  
         if(a_break==b_break) { // ended simultaneously  
                 partial=0; return 0;  
         } else if(a_break) { // first bytes equal, but a ended before b  
                 partial=1; return -1;  
         } else {  
                 partial=2; return +1;  
         }  
 }  }
   String& String::append_help_length(const char* str, size_t helper_length, Language lang) {
           if(!str)
                   return *this;
           size_t known_length=helper_length?helper_length:strlen(str);
           if(!known_length)
                   return *this;
   
 #ifndef NO_STRING_ORIGIN          return append_know_length(str, known_length, lang);
 const Origin& String::origin() const {   
         if(!used_rows()) {  
                 static const Origin empty_origin={"empty string"};  
                 return empty_origin;  
         }  
           
         // determining origin by last appended piece  
         // because first one frequently constant.   
         // ex: ^load[/file] "document_root" + "/file"  
         // when last peice is constant,   
         // ex: parser_root_auto_path{dynamic} / auto.p{const}  
         // using first piece  
         Origin& last_origin=append_here[-1].item.origin;  
         return last_origin.file ? last_origin : head.rows[0].item.origin;  
 }  }
 #endif  String& String::append_strdup(const char* str, size_t helper_length, Language lang) {
           size_t known_length=helper_length?helper_length:strlen(str);
           if(!known_length)
                   return *this;
   
 String& String::mid(size_t start, size_t finish) const {          // first: langs
         String& result=*NEW String(pool());          langs.append(body, lang, known_length);
           // next: letters themselves
           body.append_strdup_know_length(str, known_length);
   
           ASSERT_STRING_INVARIANT(*this);
           return *this;
   }
   
         start=max(0, start);  /// @todo check in doc: whether it documents NOW bad situation "abc".mid(-1, 3) =were?="ab"
         finish=min(size(), finish);  String& String::mid(size_t substr_begin, size_t substr_end) const {
         if(start==finish)          String& result=*new String;
   
           size_t self_length=length();
           substr_begin=min(substr_begin, self_length);
           substr_end=min(max(substr_end, substr_begin), self_length);
           size_t substr_length=substr_end-substr_begin;
           if(!substr_length)
                 return result;                  return result;
   
         size_t pos=0;          // first: their langs
         STRING_FOREACH_ROW(          result.langs.append(result.body, langs, substr_begin, substr_length);
                 size_t item_finish=pos+row->item.size;          // next: letters themselves
                 if(item_finish > start) { // started now or already?          result.body=body.mid(substr_begin, substr_length);
                         bool started=result.size()==0; // started now?  
                         bool finished=finish <= item_finish; // finished now?  //      SAPI::log("piece of '%s' from %d to %d is '%s'",
                         size_t offset=started?start-pos:0;                  //cstr(), substr_begin, substr_end, result.cstr());
                         size_t size=finished?finish-pos:row->item.size;          ASSERT_STRING_INVARIANT(result);
                         result.APPEND(  
                                 row->item.ptr+offset, size-offset,   
                                 row->item.lang,  
                                 row->item.origin.file, row->item.origin.line);  
                         if(finished)  
                                 goto break2;  
                 }  
                 pos+=row->item.size;  
         );  
 break2:  
 //      SAPI::log(pool(), "piece of '%s' from %d to %d is '%s'",  
                 //cstr(), start, finish, result.cstr());  
         return result;          return result;
 }  }
   
 int String::pos(const String& substr,   size_t String::pos(const String::Body substr, size_t this_offset, Language lang) const {
                                 int result, Untaint_lang lang) const {          size_t substr_begin=body.pos(substr, this_offset);
         size_t self_size=size();          if(substr_begin==CORD_NOT_FOUND || !langs.check_lang(lang, substr_begin, substr.length()))
         for(; size_t(result)<self_size; result++) {                  return STRING_NOT_FOUND;
                 int partial; cmp(partial, substr, result, lang);  
                 if(          return substr_begin;
                         partial==0 || // full match  
                         partial==2) // 'substr' starts 'this'+'result'  
                         return result;  
         }  
           
         return -1;  
 }  }
   
 int String::pos(const char *substr, size_t substr_size,   size_t String::pos(const String& substr, 
                                 int result, Untaint_lang lang) const {                                  size_t this_offset, Language lang) const {
         size_t self_size=size();          return pos(substr.body, this_offset, lang);
         for(; size_t(result)<self_size; result++) {  
                 int partial; cmp(partial, substr, substr_size, result, lang);  
                 if(  
                         partial==0 || // full match  
                         partial==2) // 'substr' starts 'this'+'result'  
                         return result;  
         }  
           
         return -1;  
 }  }
   
 void String::split(Array& result,   void String::split(ArrayString& result, 
                                    size_t* pos_after_ref,                      size_t& pos_after, 
                                    const char *delim, size_t delim_size,                      const char* delim, 
                                    Untaint_lang lang, int limit) const {                     Language lang, int limit) const {
         size_t self_size=size();          size_t self_length=length();
         if(delim_size) {          if(size_t delim_length=strlen(delim)) {
                 size_t pos_after=pos_after_ref?*pos_after_ref:0;  
                 int pos_before;                  int pos_before;
                 // while we have 'delim'...                  // while we have 'delim'...
                 for(; (pos_before=pos(delim, delim_size, pos_after, lang))>=0 && limit; limit--) {                  for(; (pos_before=pos(delim, pos_after, lang))!=STRING_NOT_FOUND && limit; limit--) {
                         result+=&mid(pos_after, pos_before);                          result+=&mid(pos_after, pos_before);
                         pos_after=pos_before+delim_size;                          pos_after=pos_before+delim_length;
                 }                  }
                 // last piece                  // last piece
                 if(pos_after<self_size && limit) {                  if(pos_after<self_length && limit) {
                         result+=&mid(pos_after, self_size);                          result+=&mid(pos_after, self_length);
                         pos_after=self_size;                          pos_after=self_length;
                 }                  }
                 if(pos_after_ref)  
                         *pos_after_ref=pos_after;  
         } else { // empty delim          } else { // empty delim
                 result+=this;                  result+=this;
                 if(pos_after_ref)                  pos_after+=self_length;
                         *pos_after_ref+=self_size;  
         }          }
 }  }
   
 void String::split(Array& result,   void String::split(ArrayString& result, 
                                    size_t* pos_after_ref,                      size_t& pos_after, 
                                    const String& delim, Untaint_lang lang,                      const String& delim, Language lang, 
                                    int limit) const {                     int limit) const {
         if(delim.size()) {          if(!delim.is_empty()) {
                 size_t pos_after=pos_after_ref?*pos_after_ref:0;  
                 int pos_before;                  int pos_before;
                 // while we have 'delim'...                  // while we have 'delim'...
                 for(; (pos_before=pos(delim, pos_after, lang))>=0 && limit; limit--) {                  for(; (pos_before=pos(delim, pos_after, lang))!=STRING_NOT_FOUND && limit; limit--) {
                         result+=&mid(pos_after, pos_before);                          result+=&mid(pos_after, pos_before);
                         pos_after=pos_before+delim.size();                          pos_after=pos_before+delim.length();
                 }                  }
                 // last piece                  // last piece
                 if(pos_after<size() && limit) {                  if(pos_after<length() && limit) {
                         result+=&mid(pos_after, size());                          result+=&mid(pos_after, length());
                         pos_after=size();                          pos_after=length();
                 }                  }
                 if(pos_after_ref)  
                         *pos_after_ref=pos_after;  
         } else { // empty delim          } else { // empty delim
                 result+=this;                  result+=this;
                 if(pos_after_ref)                  pos_after+=length();
                         *pos_after_ref+=size();  
         }          }
 }  }
   
 static void regex_options(char *options, int *result){  static void regex_options(const String* options, int *result, bool& need_pre_post_match){
     struct Regex_option {      struct Regex_option {
                 char key;                  const char* keyL;
                   const char* keyU;
                 int clear, set;                  int clear, set;
                 int *result;                  int *result;
                   bool *flag;
     } regex_option[]={      } regex_option[]={
                 {'i', 0, PCRE_CASELESS, result}, // a=A                  {"i", "I", 0, PCRE_CASELESS, result}, // a=A
                 {'s', 0, PCRE_DOTALL, result}, // \n\n$ [default]                  {"s", "S", 0, PCRE_DOTALL, result}, // \n\n$ [default]
                 {'x', 0, PCRE_EXTENDED, result}, // whitespace in regex ignored                  {"x", "U", 0, PCRE_EXTENDED, result}, // whitespace in regex ignored
                 {'m', PCRE_DOTALL, PCRE_MULTILINE, result}, // ^aaa\n$^bbb\n$                  {"m", "M", PCRE_DOTALL, PCRE_MULTILINE, result}, // ^aaa\n$^bbb\n$
                 {'g', 0, true, result+1}, // many rows                  {"g", "G", 0, true, result+1}, // many rows
                 {0},                  {"'", 0, 0, 0, 0, &need_pre_post_match},
                   {0}
     };      };
         result[0]=PCRE_EXTRA | PCRE_DOTALL;          result[0]=PCRE_EXTRA | PCRE_DOTALL | PCRE_DOLLAR_ENDONLY;
         result[1]=0;          result[1]=0;
   
     if(options)       if(options && !options->is_empty()) 
                 for(Regex_option *o=regex_option; o->key; o++)                   for(Regex_option *o=regex_option; o->keyL; o++) 
                         if(                          if(options->pos(o->keyL)!=STRING_NOT_FOUND
                                 strchr(options, o->key) ||                                   || (o->keyU && options->pos(o->keyU)!=STRING_NOT_FOUND)) {
                                 strchr(options, toupper(o->key))) {                                  if(o->flag)
                                 *(o->result)&=~o->clear;                                          *o->flag=true;
                                 *(o->result)|=o->set;                                  else { // result
                                           *o->result &= ~o->clear;
                                           *o->result |= o->set;
                                   }
                         }                          }
 }  }
   
 /// @todo maybe need speedup: some option to remove pre/match/post string generation  Table* String::match(Charset& source_charset,
 bool String::match(                       const String& regexp, 
                                    const String *aorigin,                       const String* options,
                                    const String& regexp,                        Row_action row_action, void *info,
                                    const String *options,                       bool& just_matched) const { 
                                    Table **table,          if(regexp.is_empty())
                                    Row_action row_action, void *info,                  throw Exception(0,
                                    bool *was_global) const {                           0,
   
         if(!regexp.size())  
                 throw Exception(0, 0,  
                         aorigin,  
                         "regexp is empty");                          "regexp is empty");
         const char *pattern=regexp.cstr();  
         const char *errptr;          const char* pattern=regexp.cstr();
           const char* errptr;
         int erroffset;          int erroffset;
     int option_bits[2];  regex_options(options?options->cstr():0, option_bits);          bool need_pre_post_match=false;
         if(was_global)          int option_bits[2]={0};  regex_options(options, option_bits, need_pre_post_match);
                 *was_global=option_bits[1]!=0;          bool global=option_bits[1]!=0;
         pcre *code=pcre_compile(pattern, option_bits[0],           pcre *code=pcre_compile(pattern, option_bits[0], 
                 &errptr, &erroffset,                  &errptr, &erroffset,
                 pool().get_source_charset().pcre_tables);                  source_charset.pcre_tables);
   
         if(!code)          if(!code)
                 throw Exception(0, 0,                  throw Exception(0,
                         &regexp.mid(erroffset, regexp.size()),                          &regexp.mid(erroffset, regexp.length()),
                         "regular expression syntax error - %s", errptr);                          "regular expression syntax error - %s", errptr);
                   
         int info_substrings=pcre_info(code, 0, 0);          int subpatterns=pcre_info(code, 0, 0);
         if(info_substrings<0) {          if(subpatterns<0) {
                 pcre_free(code);                  pcre_free(code);
                 throw Exception(0, 0,                  throw Exception(0,
                         aorigin,                          &regexp,
                         "pcre_info error (%d)",                           "pcre_info error (%d)", 
                                 info_substrings);                                  subpatterns);
         }          }
   
         int startoffset=0;          const char* subject=cstr();
         const char *subject=cstr();          size_t subject_length=strlen(subject);
         int length=strlen(subject);          const int oveclength=(1/*match*/+MAX_MATCH_GROUPS)*3;
         int ovecsize;          int ovector[oveclength];
         int *ovector=(int *)malloc(sizeof(int)*  
                 (ovecsize=(1/*match*/+info_substrings)*3), 11);          // create table
           Table::Action_options table_options;
         { // create table          Table& table=*new Table(string_match_table_template, table_options);
                 Array& columns=*NEW Array(pool());  
                 columns+=string_pre_match_name;  
                 columns+=string_match_name;  
                 columns+=string_post_match_name;  
                 for(int i=1; i<=info_substrings; i++) {  
                         char *column=(char *)malloc(MAX_NUMBER);  
                         snprintf(column, MAX_NUMBER, "%d", i);  
                         columns+=NEW String(pool(), column); // .i column name  
                 }  
                 *table=NEW Table(pool(), aorigin, &columns);  
         }  
   
         int exec_option_bits=0;          int exec_option_bits=0;
           int prestart=0;
           int poststart=0;
           int postfinish=length();
         while(true) {          while(true) {
                 int exec_substrings=pcre_exec(code, 0,                  int exec_substrings=pcre_exec(code, 0,
                         subject, length, startoffset,                          subject, subject_length, prestart,
                         exec_option_bits, ovector, ovecsize);                          exec_option_bits, ovector, oveclength);
                                   
                 if(exec_substrings==PCRE_ERROR_NOMATCH) {                  if(exec_substrings==PCRE_ERROR_NOMATCH) {
                         pcre_free(code);                          pcre_free(code);
                         row_action(**table, 0/*last time, no row*/, 0, 0, info);                          row_action(table, 0/*last time, no raw*/, 0, 0, poststart, postfinish, info);
                         return option_bits[1]!=0; // global=true+table, not global=false                          if(global || subpatterns)
                                   return &table; // global or with subpatterns=true+result
                           else {
                                   just_matched=false; return 0; // not global=no result
                           }
                 }                  }
   
                 if(exec_substrings<0) {                  if(exec_substrings<0) {
                         pcre_free(code);                          pcre_free(code);
                         throw Exception(0, 0,                          throw Exception(0,
                                 aorigin,                                  &regexp,
                                 "regular expression execute error (%d)",                                   "regular expression execute error (%d)", 
                                         exec_substrings);                                          exec_substrings);
                 }                  }
   
                 Array& row=*NEW Array(pool());                  int prefinish=ovector[0];
                 row+=&mid(0, ovector[0]); // .prematch column value                  poststart=ovector[1];
                 row+=&mid(ovector[0], ovector[1]); // .match                  ArrayString* row=new ArrayString;
                 row+=&mid(ovector[1], size()); // .postmatch                  if(need_pre_post_match) {
                           *row+=&mid(0, prefinish); // .prematch column value
                           *row+=&mid(prefinish, poststart); // .match
                           *row+=&mid(poststart, postfinish); // .postmatch
                   } else {
                           *row+=0; // .prematch column value
                           *row+=0; // .match
                           *row+=0; // .postmatch
                   }
                                   
                 for(int i=1; i<exec_substrings; i++) {                  for(int i=1; i<exec_substrings; i++) {
                         // -1:-1 case handled peacefully by mid() itself                          // -1:-1 case handled peacefully by mid() itself
                         row+=&mid(ovector[i*2+0], ovector[i*2+1]); // .i column value                          *row+=&mid(ovector[i*2+0], ovector[i*2+1]); // .i column value
                 }                  }
                                   
                 row_action(**table, &row, startoffset, ovector[0], info);                  row_action(table, row, prestart, prefinish, poststart, postfinish, info);
   
                 if(!option_bits[1] || startoffset==ovector[1]) { // not global | going to hang                  if(!global || prestart==poststart) { // not global | going to hang
                         pcre_free(code);                          pcre_free(code);
                         row_action(**table, 0/*last time, no row*/, 0, 0, info);                          row_action(table, 0/*last time, no row*/, 0, 0, poststart, postfinish, info);
                         return true;                          return &table;
                 }                  }
                 startoffset=ovector[1];                  prestart=poststart;
   
 /*  /*
                 if(option_bits[0] & PCRE_MULTILINE)                  if(option_bits[0] & PCRE_MULTILINE)
Line 603  bool String::match( Line 347  bool String::match(
         }          }
 }  }
   
 String& String::change_case(Pool& pool,   String& String::change_case(Charset& source_charset, Change_case_kind kind) const {
                                                         Change_case_kind kind) const {          String& result=*new String();
         const unsigned char *tables=pool.get_source_charset().pcre_tables;          if(is_empty())
         String& result=*new(pool) String(pool);                  return result;
   
           const unsigned char *tables=source_charset.pcre_tables;
   
         const unsigned char *a;          const unsigned char *a;
         const unsigned char *b;          const unsigned char *b;
Line 620  String& String::change_case(Pool& pool, Line 366  String& String::change_case(Pool& pool,
                 b=0;                  b=0;
                 break;                  break;
         default:          default:
                 throw Exception(0, 0,                   throw Exception(0, 
                         this,                           this, 
                         "unknown change case kind #%d",                           "unknown change case kind #%d", 
                                 static_cast<int>(kind)); // never                                  static_cast<int>(kind)); // never
Line 628  String& String::change_case(Pool& pool, Line 374  String& String::change_case(Pool& pool,
                 break; // never                  break; // never
         }                 }       
   
         const Chunk *chunk=&head;           char* new_cstr=cstrm();
         do {          char *dest=new_cstr;
                 const Chunk::Row *row=chunk->rows;          unsigned char index;
                 for(uint i=0; i<chunk->count; i++, row++) {          for(const char* current=new_cstr; index=(unsigned char)*current; current++) {
                         if(row==append_here)                  unsigned char c=a[index];
                                 goto break2;                  if(b)
                           c=b[c];
                         char *new_cstr=(char *)pool.malloc(row->item.size, 12);  
                         char *dest=new_cstr;  
                         const char *src=row->item.ptr;   
                         for(int size=row->item.size; size--; src++) {  
                                 unsigned char c=a[(unsigned char)*src];  
                                 if(b)  
                                         c=b[c];  
   
                                 *dest++=(char)c;                  *dest++=(char)c;
                         }          }
                                   result.langs=langs;
                         result.APPEND(new_cstr, row->item.size,           result.body=new_cstr;
                                 row->item.lang,  
                                 row->item.origin.file, row->item.origin.line);  
                 }  
                 chunk=row->link;  
         } while(chunk);  
 break2:  
   
         return result;          return result;
 }  }
   
 void String::join_chain(Pool& pool,   const String& String::replace(const Dictionary& dict) const {
                                            uint& ai, const Chunk*& achunk, const Chunk::Row*& arow,          String& result=*new String();
                                            uchar& joined_lang, const char *& joined_ptr, size_t& joined_size) const {          const char* old_cstr=cstr();
         joined_lang=arow->item.lang;          const char* prematch_begin=old_cstr;
           
         // calc size  
         joined_size=0;  
         {  
                 uint start_i=ai;  
                 const Chunk::Row *start_row=arow;  
                 const Chunk *chunk=achunk;  
                 do {  
                         const Chunk::Row *row=start_row;  
                         for(uint i=start_i; i<chunk->count; i++, row++) {  
                                 if(row==append_here)  
                                         goto break21;  
                                   
                                 if(row->item.lang==joined_lang)  
                                         joined_size+=row->item.size;  
                                 else  
                                         goto break21;  
                         }  
                         if(chunk=row->link) {  
                                 start_i=0;  
                                 start_row=chunk->rows;  
                         } else  
                                 break;  
                 } while(true);  
 break21:;  
         }  
   
         // if one row, return simply itself          const char* current=old_cstr;
         if(joined_size==arow->item.size) {          while(*current) {
                 joined_ptr=arow->item.ptr;                  if(Table::element_type row=dict.first_that_begins(current)) {
                 ai++; arow++;                          // prematch
                 if(ai==achunk->count) {                          if(size_t prematch_length=current-prematch_begin) {
                         if(achunk=arow->link) {                                  result.langs.append(result.body, langs, prematch_begin-old_cstr, current-old_cstr);
                                 ai=0;                                  result.body.append_strdup_know_length(prematch_begin, prematch_length);
                                 arow=achunk->rows;  
                         }  
                 }  
         } else {  
                 // join adjacent rows  
                 char *ptr=(char *)pool.malloc(joined_size,13);  
                 joined_ptr=ptr;  
                 uint start_i=ai;  
                 const Chunk::Row *start_row=arow;  
                 const Chunk *chunk=achunk;  
                 uint i;  
                 const Chunk::Row *row;  
                 do {  
                         row=start_row;  
                         for(i=start_i; i<chunk->count; i++, row++) {  
                                 if(row==append_here)  
                                         goto break22;  
                                   
                                 if(row->item.lang==joined_lang) {  
                                         memcpy(ptr, row->item.ptr, row->item.size);  
                                         ptr+=row->item.size;  
                                 } else  
                                         goto break22;  
                         }                          }
                         if(chunk=row->link) {  
                                 start_i=0;  
                                 start_row=chunk->rows;  
                         } else  
                                 break;  
                 } while(true);  
 break22:;  
                   
                 // return joined rows  
                 ai=i;  
                 arow=row;  
                 achunk=chunk;  
         }  
 }  
   
 String& String::reconstruct(Pool& pool) const {                          // match
         //_asm int 3;  
         String& result=*new(pool) String(pool);  
         const Chunk *chunk=&head;   
         const Chunk::Row *row=chunk->rows;  
         for(uint i=0; i<chunk->count; ) {  
                 if(row==append_here)  
                         break;  
   
                 uchar joined_lang;  
                 const char *joined_ptr;  
                 size_t joined_size;  
 #ifndef NO_STRING_ORIGIN  
                 const char *joined_origin_file=row->item.origin.file;  
                 const size_t joined_origin_line=row->item.origin.line;  
 #endif  
                 join_chain(pool, i, chunk, row,  
                         joined_lang, joined_ptr, joined_size);  
   
                 result.APPEND(joined_ptr, joined_size, joined_lang,                          const String* a=row->get(0);
                         joined_origin_file, joined_origin_line);                          // skip 'a' in 'current'; move prematch_begin
                           current+=a->length(); prematch_begin=current;
   
                 if(!chunk)                          if(row->count()>1) { // are there any b?
                         break;                                  const String* b=row->get(1);
                                   result<<*b;
                           }
                   } else // simply advance
                           current++; 
         }          }
   
         return result;          // postmatch
 };          if(size_t postmatch_length=current-prematch_begin) {
                   result.langs.append(result.body, langs, prematch_begin-old_cstr, current-old_cstr);
 String& String::replace_in_reconstructed(Pool& pool, Dictionary& dict) const {                  result.body.append_strdup_know_length(prematch_begin, postmatch_length);
         //_asm int 3;          }
         String& result=*new(pool) String(pool);  
         STRING_FOREACH_ROW(  
                 const char *src=row->item.ptr;   
                 size_t src_size=row->item.size;  
                 char *new_cstr=(char *)pool.malloc((size_t)ceil(src_size*dict.max_ratio()), 14);  
                 char *dest=new_cstr;  
                 while(src_size) {  
                         // there is a row where first column starts 'src'  
                         if(Table::Item *item=dict.first_that_starts(src, src_size)) {  
                                 // get a=>b values  
                                 const String& a=*static_cast<Array *>(item)->get_string(0);  
                                 const String& b=*static_cast<Array *>(item)->get_string(1);  
                                 // skip 'a' in 'src' && reduce work size  
                                 src+=a.size();  src_size-=a.size();  
                                 // write 'b' to 'dest' && skip 'b' in 'dest'  
                                 b.store_to(dest);  dest+=b.size();  
                         } else {  
                                 // write a char to b && reduce work size  
                                 *dest++=*src++;  src_size--;  
                         }  
                 }  
   
                 result.APPEND(new_cstr, dest-new_cstr,           ASSERT_STRING_INVARIANT(result);
                         row->item.lang,  
                         row->item.origin.file, row->item.origin.line);  
         );  
 break2:  
         return result;          return result;
 }  }
   
 String& String::replace(Pool& pool, Dictionary& dict) const {  
         return reconstruct(pool).replace_in_reconstructed(pool, dict);  
 }  
   
 double String::as_double() const {   double String::as_double() const { 
         double result;          double result;
         const char *cstr;          const char *str=cstr();
         char buf[MAX_NUMBER];  
         if(head.rows+1==append_here) {          while(*str && isspace(*str))
                 int size=min(head.rows[0].item.size, MAX_NUMBER-1);                  str++;
                 memcpy(buf, head.rows[0].item.ptr, size);          if(!*str)
                 buf[size]=0;                  return 0;
                 cstr=buf;  
         } else  
                 cstr=this->cstr();  
         char *error_pos;          char *error_pos;
         // 0xABC          // 0xABC
         if(cstr[0]=='0')          if(str[0]=='0')
                 if(cstr[1]=='x' || cstr[1]=='X')                  if(str[1]=='x' || str[1]=='X')
                         result=(double)(unsigned long)strtol(cstr, &error_pos, 0);                          result=(double)(unsigned long)strtol(str, &error_pos, 0);
                 else                  else
                         result=(double)strtod(cstr+1/*skip leading 0*/, &error_pos);                          result=(double)strtod(str+1/*skip leading 0*/, &error_pos);
         else          else
                 result=(double)strtod(cstr, &error_pos);                  result=(double)strtod(str, &error_pos);
   
         if(*error_pos/*not EOS*/)          while(char c=*error_pos++)
                 throw Exception(0, 0,                  if(!isspace(c))
                         this,                          throw Exception("number.format",
                         "invalid number (double)");                                  this,
                                   "invalid number (double)");
   
         return result;          return result;
 }  }
 int String::as_int() const {   int String::as_int() const { 
         int result;          int result;
         const char *cstr;          const char *str=cstr();
         char buf[MAX_NUMBER];  
         if(head.rows+1==append_here) {          while(*str && isspace(*str))
                 int size=min(head.rows[0].item.size, MAX_NUMBER-1);                  str++;
                 memcpy(buf, head.rows[0].item.ptr, size);          if(!*str)
                 buf[size]=0;                  return 0;
                 cstr=buf;  
         } else  
                 cstr=this->cstr();  
         char *error_pos;          char *error_pos;
         // 0xABC          // 0xABC
         if(cstr[0]=='0')          if(str[0]=='0')
                 if(cstr[1]=='x' || cstr[1]=='X')                  if(str[1]=='x' || str[1]=='X')
                         result=(int)(unsigned long)strtol(cstr, &error_pos, 0);                          result=(int)(unsigned long)strtol(str, &error_pos, 0);
                 else                  else
                         result=(int)strtol(cstr+1/*skip leading 0*/, &error_pos, 0);                          result=(int)strtol(str+1/*skip leading 0*/, &error_pos, 0);
         else          else
                 result=(int)strtol(cstr, &error_pos, 0);                  result=(int)strtol(str, &error_pos, 0);
   
         if(*error_pos/*not EOS*/)          while(char c=*error_pos++)
                 throw Exception(0, 0,                  if(!isspace(c))
                         this,                          throw Exception("number.format",
                         "invalid number (int)");                                  this,
                                   "invalid number (int)");
   
         return result;          return result;
 }  }
   
 inline void ushort2uchars(ushort word, uchar& byte1, uchar& byte2) {  inline void uint2uchars(uint word, uchar *bytes) {
         byte1=word&0xFF;          bytes[0]=word&0xFF;
         byte2=word>>8;          bytes[1]=(word>>8)&0xFF;
 }          bytes[2]=(word>>16)&0xFF;
 inline ushort uchars2ushort(uchar byte1, uchar byte2) {          bytes[3]=(word>>24)&0xFF;
         return (byte2<<8) | byte1;  }
 }  inline uint uchars2uint(uchar *bytes) {
 /* @todo maybe network order worth spending some effort?          return bytes[3]<<24
         don't bothering myself with network byte order,                  | bytes[2]<<16
         am not planning to be able to move resulting file across platforms                  | bytes[1]<<8
         for now                  | bytes[0];
 */  }
 void String::serialize(size_t prolog_size, void *& buf, size_t& buf_size) const {  
         buf_size=  static int serialize_body_piece(const char* s, char** cur) {
                 prolog_size          size_t length=strlen(s);
                 +used_rows()*(sizeof(uchar)+sizeof(ushort))          memcpy(*cur, s, length);  *cur+=length;
                 +size();          return 0;
         buf=malloc(buf_size,15);  };
         char *cur=(char *)buf+prolog_size;  String::Cm String::serialize(size_t prolog_length) const {
   #if TODO
         STRING_FOREACH_ROW(          //_asm int 3;
           size_t buf_length=
                   prolog_length
                   +sizeof(size_t)
                   +langs.count()*(sizeof(Language)+sizeof(size_t))
                   +length();
           String::Cm result(new(PointerFreeGC) char[buf_length], buf_length);
   
           // 1: prolog
           char *cur=result.str+prolog_length;
   
   
           // 2: langs.count
           size_t fragments_count=langs.count();
           memcpy(cur, &fragments_count, sizeof(fragments_count));  cur+=sizeof(fragments_count);
   
           // 3: lang info
           for(Array_iterator<ArrayFragment::element_type> i(langs); i.has_next(); ) {
                   const Fragment fragment=i.next();
                 // lang                  // lang
                 memcpy(cur, &row->item.lang, sizeof(uchar));                  memcpy(cur, &fragment.lang, sizeof(fragment.lang));  cur+=sizeof(fragment.lang);
                 cur+=sizeof(uchar);                  // length
                 // size                  memcpy(cur, &fragment.length, sizeof(fragment.length));  cur+=sizeof(fragment.length);
                 uchar byte1; uchar byte2;          }
                 ushort2uchars(row->item.size, byte1, byte2);  
                 memcpy(cur, &byte1, sizeof(uchar)); cur+=sizeof(uchar);          // 4: letters
                 memcpy(cur, &byte2, sizeof(uchar)); cur+=sizeof(uchar);          body.for_each(serialize_body_piece, &cur);
                 // bytes  
                 memcpy(cur, row->item.ptr, row->item.size);          return result;
                 cur+=row->item.size;  #endif
         );          return String::Cm(0, 0);
 break2:  
         ;  
 }  }
 void String::deserialize(size_t prolog_size, void *buf, size_t buf_size, const char *file) {  bool String::deserialize(size_t prolog_length, void *buf, size_t buf_length) {
         if(buf_size<=prolog_size)  #if TODO
                 return;          if(buf_length<=prolog_length)
                   return false;
           buf_length-=prolog_length;
   
           // 1: prolog
           const char* cur=(const char* )buf+prolog_length;
   
           // 2: langs.count
           if(buf_length<sizeof(size_t)) // langs.count don't fit?
                   return false;
           size_t fragments_count=*reinterpret_cast<const size_t*>(cur);  cur+=sizeof(size_t);
           buf_length-=sizeof(size_t);
           
           if(fragments_count) {
                   // 3: lang info
                   size_t total_length=0;
                   for(size_t f=0; f<fragments_count; f++) {
                           size_t piece_length=sizeof(Language)+sizeof(size_t);
                           if(buf_length<piece_length) // lang+length
                                   return false;
   
         char *cur=(char *)buf+prolog_size;                          Language lang=*reinterpret_cast<const Language *>(cur);  cur+=sizeof(Language);
         buf_size-=prolog_size;                          size_t fragment_length=*reinterpret_cast<const size_t*>(cur);  cur+=sizeof(size_t);
                           langs+=Fragment(lang, fragment_length);
                           total_length+=fragment_length;
   
         while(buf_size) {                          buf_length-=piece_length;
                 uchar lang=*(uchar *)(cur);                  }
                   
                 ushort size=uchars2ushort(                  // 4: letters
                         *(uchar*)(cur+sizeof(uchar)*1),                  if(buf_length!=total_length)
                         *(uchar*)(cur+sizeof(uchar)*2)                          return false;
                 );  
                   body=String::Body(cur, buf_length);
                 const char *ptr=(const char*)(cur+sizeof(uchar)*3);   
                 APPEND(ptr, size, lang, file, 0);  
   
                 size_t piece_size=sizeof(uchar)+sizeof(ushort)+size;  
                 cur+=piece_size;  
                 buf_size-=piece_size;  
         }          }
   
           ASSERT_STRING_INVARIANT(*this);
           return true;
   #endif
           return false;
   }
   
   const char* String::Body::v() const {
           return CORD_to_const_char_star(body);
   }
   const char* String::Languages::v() const {
           if(is_not_just_lang)
                   return CORD_to_const_char_star(langs);
           else
                   return (const char*)&langs;
   }
   const char* String::v() const {
   #define LIMIT_VIEW 20
           char* buf=(char*)malloc(MAX_STRING);
           const char*body_view=body.v();
           const char*langs_view=langs.v();
           snprintf(buf, MAX_STRING, 
                   "%.*s%s}   "
                   "{%d:%s",
                   LIMIT_VIEW, langs_view, strlen(langs_view)>LIMIT_VIEW?"...":"",
                   strlen(body_view), body_view
           );
   
           return buf;
   #undef LIMIT_VIEW
 }  }

Removed from v.1.136  
changed lines
  Added in v.1.176


E-mail: