Branch data Line data Source code
1 : : /* mergepostlist.cc: merge postlists from different databases
2 : : *
3 : : * Copyright 1999,2000,2001 BrightStation PLC
4 : : * Copyright 2002 Ananova Ltd
5 : : * Copyright 2002,2003,2004,2006,2008,2009 Olly Betts
6 : : * Copyright 2007,2009 Lemur Consulting Ltd
7 : : *
8 : : * This program is free software; you can redistribute it and/or
9 : : * modify it under the terms of the GNU General Public License as
10 : : * published by the Free Software Foundation; either version 2 of the
11 : : * License, or (at your option) any later version.
12 : : *
13 : : * This program is distributed in the hope that it will be useful,
14 : : * but WITHOUT ANY WARRANTY; without even the implied warranty of
15 : : * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the
16 : : * GNU General Public License for more details.
17 : : *
18 : : * You should have received a copy of the GNU General Public License
19 : : * along with this program; if not, write to the Free Software
20 : : * Foundation, Inc., 51 Franklin St, Fifth Floor, Boston, MA 02110-1301
21 : : * USA
22 : : */
23 : :
24 : : #include <config.h>
25 : : #include "mergepostlist.h"
26 : :
27 : : #include "multimatch.h"
28 : : #include "emptypostlist.h"
29 : : #include "branchpostlist.h"
30 : : #include "debuglog.h"
31 : : #include "omassert.h"
32 : : #include "valuestreamdocument.h"
33 : : #include "xapian/errorhandler.h"
34 : :
35 : : // NB don't prune - even with one sublist we still translate docids...
36 : :
37 : 71275 : MergePostList::~MergePostList()
38 : : {
39 : : LOGCALL_VOID(MATCH, "MergePostList::~MergePostList", NO_ARGS);
40 : 71275 : std::vector<PostList *>::const_iterator i;
41 [ + + ][ # # ]: 213847 : for (i = plists.begin(); i != plists.end(); i++) {
[ # # ]
42 [ + - ][ # # ]: 142572 : delete *i;
[ # # ]
43 : : }
44 [ + - ][ # # ]: 71275 : }
[ # # ]
45 : :
46 : : PostList *
47 : 28201912 : MergePostList::next(Xapian::weight w_min)
48 : : {
49 : : LOGCALL(MATCH, PostList *, "MergePostList::next", w_min);
50 : : LOGVALUE(MATCH, current);
51 [ + + ]: 28201912 : if (current == -1) current = 0;
52 : 70588 : while (true) {
53 : : // FIXME: should skip over Remote matchers which aren't ready yet
54 : : // and come back to them later...
55 : : try {
56 : 28272500 : next_handling_prune(plists[current], w_min, matcher);
57 [ + + ]: 28272500 : if (!plists[current]->at_end()) break;
58 : 141160 : ++current;
59 [ + + ]: 141160 : if (unsigned(current) >= plists.size()) break;
60 : 70588 : vsdoc.new_subdb(current);
61 : 0 : } catch (Xapian::Error & e) {
62 [ # # ]: 0 : if (errorhandler) {
63 : : LOGLINE(EXCEPTION, "Calling error handler in MergePostList::next().");
64 : 0 : (*errorhandler)(e);
65 : : // Continue match without this sub-postlist.
66 [ # # ]: 0 : delete plists[current];
67 : 0 : plists[current] = new EmptyPostList;
68 : : } else {
69 : 0 : throw;
70 : : }
71 : : }
72 [ + - ]: 70588 : if (matcher) matcher->recalc_maxweight();
73 : : }
74 : : LOGVALUE(MATCH, current);
75 : 28201912 : RETURN(NULL);
76 : : }
77 : :
78 : : PostList *
79 : 0 : MergePostList::skip_to(Xapian::docid did, Xapian::weight w_min)
80 : : {
81 : : LOGCALL(MATCH, PostList *, "MergePostList::skip_to", did | w_min);
82 : : (void)did;
83 : : (void)w_min;
84 : : // MergePostList doesn't return documents in docid order, so skip_to
85 : : // isn't a meaningful operation.
86 : 0 : throw Xapian::InvalidOperationError("MergePostList doesn't support skip_to");
87 : : }
88 : :
89 : : Xapian::termcount
90 : 0 : MergePostList::get_wdf() const
91 : : {
92 : : LOGCALL(MATCH, Xapian::termcount, "MergePostList::get_wdf", NO_ARGS);
93 : 0 : RETURN(plists[current]->get_wdf());
94 : : }
95 : :
96 : : Xapian::doccount
97 : 71275 : MergePostList::get_termfreq_max() const
98 : : {
99 : : LOGCALL(MATCH, Xapian::doccount, "MergePostList::get_termfreq_max", NO_ARGS);
100 : : // sum of termfreqs for all children
101 : 71275 : Xapian::doccount total = 0;
102 : 71275 : vector<PostList *>::const_iterator i;
103 [ + + ]: 213847 : for (i = plists.begin(); i != plists.end(); i++) {
104 : 142572 : total += (*i)->get_termfreq_max();
105 : : }
106 : 71275 : return total;
107 : : }
108 : :
109 : : Xapian::doccount
110 : 71242 : MergePostList::get_termfreq_min() const
111 : : {
112 : : LOGCALL(MATCH, Xapian::doccount, "MergePostList::get_termfreq_min", NO_ARGS);
113 : : // sum of termfreqs for all children
114 : 71242 : Xapian::doccount total = 0;
115 : 71242 : vector<PostList *>::const_iterator i;
116 [ + + ]: 213748 : for (i = plists.begin(); i != plists.end(); i++) {
117 : 142506 : total += (*i)->get_termfreq_min();
118 : : }
119 : 71242 : return total;
120 : : }
121 : :
122 : : Xapian::doccount
123 : 71275 : MergePostList::get_termfreq_est() const
124 : : {
125 : : LOGCALL(MATCH, Xapian::doccount, "MergePostList::get_termfreq_est", NO_ARGS);
126 : : // sum of termfreqs for all children
127 : 71275 : Xapian::doccount total = 0;
128 : 71275 : vector<PostList *>::const_iterator i;
129 [ + + ]: 213847 : for (i = plists.begin(); i != plists.end(); i++) {
130 : 142572 : total += (*i)->get_termfreq_est();
131 : : }
132 : 71275 : return total;
133 : : }
134 : :
135 : : Xapian::docid
136 : 20056975 : MergePostList::get_docid() const
137 : : {
138 : : LOGCALL(MATCH, Xapian::docid, "MergePostList::get_docid", NO_ARGS);
139 : : Assert(current != -1);
140 : : // FIXME: this needs fixing so we can prune plists - see MultiPostlist
141 : : // for code which does this...
142 : 20056975 : RETURN((plists[current]->get_docid() - 1) * plists.size() + current + 1);
143 : : }
144 : :
145 : : Xapian::weight
146 : 28131337 : MergePostList::get_weight() const
147 : : {
148 : : LOGCALL(MATCH, Xapian::weight, "MergePostList::get_weight", NO_ARGS);
149 : : Assert(current != -1);
150 : 28131337 : return plists[current]->get_weight();
151 : : }
152 : :
153 : : const string *
154 : 3270 : MergePostList::get_collapse_key() const
155 : : {
156 : : LOGCALL(MATCH, string *, "MergePostList::get_collapse_key", NO_ARGS);
157 : : Assert(current != -1);
158 : 3270 : return plists[current]->get_collapse_key();
159 : : }
160 : :
161 : : Xapian::weight
162 : 10224507 : MergePostList::get_maxweight() const
163 : : {
164 : : LOGCALL(MATCH, Xapian::weight, "MergePostList::get_maxweight", NO_ARGS);
165 : 10224507 : return w_max;
166 : : }
167 : :
168 : : Xapian::weight
169 : 203392 : MergePostList::recalc_maxweight()
170 : : {
171 : : LOGCALL(MATCH, Xapian::weight, "MergePostList::recalc_maxweight", NO_ARGS);
172 : 203392 : w_max = 0;
173 : 203392 : vector<PostList *>::iterator i;
174 [ + + ]: 610198 : for (i = plists.begin(); i != plists.end(); i++) {
175 : : try {
176 : 406806 : Xapian::weight w = (*i)->recalc_maxweight();
177 [ + + ]: 406806 : if (w > w_max) w_max = w;
178 : 0 : } catch (Xapian::Error & e) {
179 [ # # ]: 0 : if (errorhandler) {
180 : : LOGLINE(EXCEPTION, "Calling error handler in MergePostList::recalc_maxweight().");
181 : 0 : (*errorhandler)(e);
182 : :
183 [ # # ]: 0 : if (current == i - plists.begin()) {
184 : : // Fatal error
185 : 0 : throw;
186 : : }
187 : : // Continue match without this sub-postlist.
188 [ # # ]: 0 : delete (*i);
189 : 0 : *i = new EmptyPostList;
190 : : } else {
191 : 0 : throw;
192 : : }
193 : : }
194 : : }
195 : 203392 : return w_max;
196 : : }
197 : :
198 : : bool
199 : 28201912 : MergePostList::at_end() const
200 : : {
201 : : LOGCALL(MATCH, bool, "MergePostList::at_end", NO_ARGS);
202 : : Assert(current != -1);
203 : 28201912 : return unsigned(current) >= plists.size();
204 : : }
205 : :
206 : : string
207 : 0 : MergePostList::get_description() const
208 : : {
209 : 0 : string desc = "( Merge ";
210 : 0 : vector<PostList *>::const_iterator i;
211 [ # # ]: 0 : for (i = plists.begin(); i != plists.end(); i++) {
212 : 0 : desc += (*i)->get_description() + " ";
213 : : }
214 : 0 : return desc + ")";
215 : : }
216 : :
217 : : Xapian::termcount
218 : 0 : MergePostList::get_doclength() const
219 : : {
220 : : LOGCALL(MATCH, Xapian::termcount, "MergePostList::get_doclength", NO_ARGS);
221 : : Assert(current != -1);
222 : 0 : return plists[current]->get_doclength();
223 : : }
224 : :
225 : : Xapian::termcount
226 : 345178 : MergePostList::count_matching_subqs() const
227 : : {
228 : : LOGCALL(MATCH, Xapian::termcount, "MergePostList::count_matching_subqs", NO_ARGS);
229 : 345178 : RETURN(plists[current]->count_matching_subqs());
230 : : }
|