Context Navigation

← Previous Revision
Latest Revision
Next Revision →
Blame
Revision Log

source: py-scraping/mechanize/_opener.py@ 173

Last change on this file since 173 was 106, checked in by Rick van der Zwet, 15 years ago
Initial commit...
File size: 14.2 KB

Line
1	"""Integration with Python standard library module urllib2: OpenerDirector
2	class.
3
4	Copyright 2004-2006 John J Lee <jjl@pobox.com>
5
6	This code is free software; you can redistribute it and/or modify it
7	under the terms of the BSD or ZPL 2.1 licenses (see the file
8	COPYING.txt included with the distribution).
9
10	"""
11
12	import os, urllib2, bisect, httplib, types, tempfile
13	try:
14	import threading as _threading
15	except ImportError:
16	import dummy_threading as _threading
17	try:
18	set
19	except NameError:
20	import sets
21	set = sets.Set
22
23	import _file
24	import _http
25	from _request import Request
26	import _response
27	import _rfc3986
28	import _sockettimeout
29	import _upgrade
30	from _util import isstringlike
31
32
33	class ContentTooShortError(urllib2.URLError):
34	def __init__(self, reason, result):
35	urllib2.URLError.__init__(self, reason)
36	self.result = result
37
38
39	def set_request_attr(req, name, value, default):
40	try:
41	getattr(req, name)
42	except AttributeError:
43	setattr(req, name, default)
44	if value is not default:
45	setattr(req, name, value)
46
47
48	class OpenerDirector(urllib2.OpenerDirector):
49	def __init__(self):
50	urllib2.OpenerDirector.__init__(self)
51	# really none of these are (sanely) public -- the lack of initial
52	# underscore on some is just due to following urllib2
53	self.process_response = {}
54	self.process_request = {}
55	self._any_request = {}
56	self._any_response = {}
57	self._handler_index_valid = True
58	self._tempfiles = []
59
60	def add_handler(self, handler):
61	if handler in self.handlers:
62	return
63	# XXX why does self.handlers need to be sorted?
64	bisect.insort(self.handlers, handler)
65	handler.add_parent(self)
66	self._handler_index_valid = False
67
68	def _maybe_reindex_handlers(self):
69	if self._handler_index_valid:
70	return
71
72	handle_error = {}
73	handle_open = {}
74	process_request = {}
75	process_response = {}
76	any_request = set()
77	any_response = set()
78	unwanted = []
79
80	for handler in self.handlers:
81	added = False
82	for meth in dir(handler):
83	if meth in ["redirect_request", "do_open", "proxy_open"]:
84	# oops, coincidental match
85	continue
86
87	if meth == "any_request":
88	any_request.add(handler)
89	added = True
90	continue
91	elif meth == "any_response":
92	any_response.add(handler)
93	added = True
94	continue
95
96	ii = meth.find("_")
97	scheme = meth[:ii]
98	condition = meth[ii + 1:]
99
100	if condition.startswith("error"):
101	jj = meth[ii + 1:].find("_") + ii + 1
102	kind = meth[jj + 1:]
103	try:
104	kind = int(kind)
105	except ValueError:
106	pass
107	lookup = handle_error.setdefault(scheme, {})
108	elif condition == "open":
109	kind = scheme
110	lookup = handle_open
111	elif condition == "request":
112	kind = scheme
113	lookup = process_request
114	elif condition == "response":
115	kind = scheme
116	lookup = process_response
117	else:
118	continue
119
120	lookup.setdefault(kind, set()).add(handler)
121	added = True
122
123	if not added:
124	unwanted.append(handler)
125
126	for handler in unwanted:
127	self.handlers.remove(handler)
128
129	# sort indexed methods
130	# XXX could be cleaned up
131	for lookup in [process_request, process_response]:
132	for scheme, handlers in lookup.iteritems():
133	lookup[scheme] = handlers
134	for scheme, lookup in handle_error.iteritems():
135	for code, handlers in lookup.iteritems():
136	handlers = list(handlers)
137	handlers.sort()
138	lookup[code] = handlers
139	for scheme, handlers in handle_open.iteritems():
140	handlers = list(handlers)
141	handlers.sort()
142	handle_open[scheme] = handlers
143
144	# cache the indexes
145	self.handle_error = handle_error
146	self.handle_open = handle_open
147	self.process_request = process_request
148	self.process_response = process_response
149	self._any_request = any_request
150	self._any_response = any_response
151
152	def _request(self, url_or_req, data, visit,
153	timeout=_sockettimeout._GLOBAL_DEFAULT_TIMEOUT):
154	if isstringlike(url_or_req):
155	req = Request(url_or_req, data, visit=visit, timeout=timeout)
156	else:
157	# already a urllib2.Request or mechanize.Request instance
158	req = url_or_req
159	if data is not None:
160	req.add_data(data)
161	# XXX yuck
162	set_request_attr(req, "visit", visit, None)
163	set_request_attr(req, "timeout", timeout,
164	_sockettimeout._GLOBAL_DEFAULT_TIMEOUT)
165	return req
166
167	def open(self, fullurl, data=None,
168	timeout=_sockettimeout._GLOBAL_DEFAULT_TIMEOUT):
169	req = self._request(fullurl, data, None, timeout)
170	req_scheme = req.get_type()
171
172	self._maybe_reindex_handlers()
173
174	# pre-process request
175	# XXX should we allow a Processor to change the URL scheme
176	# of the request?
177	request_processors = set(self.process_request.get(req_scheme, []))
178	request_processors.update(self._any_request)
179	request_processors = list(request_processors)
180	request_processors.sort()
181	for processor in request_processors:
182	for meth_name in ["any_request", req_scheme + "_request"]:
183	meth = getattr(processor, meth_name, None)
184	if meth:
185	req = meth(req)
186
187	# In Python >= 2.4, .open() supports processors already, so we must
188	# call ._open() instead.
189	urlopen = getattr(urllib2.OpenerDirector, "_open",
190	urllib2.OpenerDirector.open)
191	response = urlopen(self, req, data)
192
193	# post-process response
194	response_processors = set(self.process_response.get(req_scheme, []))
195	response_processors.update(self._any_response)
196	response_processors = list(response_processors)
197	response_processors.sort()
198	for processor in response_processors:
199	for meth_name in ["any_response", req_scheme + "_response"]:
200	meth = getattr(processor, meth_name, None)
201	if meth:
202	response = meth(req, response)
203
204	return response
205
206	def error(self, proto, *args):
207	if proto in ['http', 'https']:
208	# XXX http[s] protocols are special-cased
209	dict = self.handle_error['http'] # https is not different than http
210	proto = args[2] # YUCK!
211	meth_name = 'http_error_%s' % proto
212	http_err = 1
213	orig_args = args
214	else:
215	dict = self.handle_error
216	meth_name = proto + '_error'
217	http_err = 0
218	args = (dict, proto, meth_name) + args
219	result = apply(self._call_chain, args)
220	if result:
221	return result
222
223	if http_err:
224	args = (dict, 'default', 'http_error_default') + orig_args
225	return apply(self._call_chain, args)
226
227	BLOCK_SIZE = 1024 * 8
228	def retrieve(self, fullurl, filename=None, reporthook=None, data=None,
229	timeout=_sockettimeout._GLOBAL_DEFAULT_TIMEOUT):
230	"""Returns (filename, headers).
231
232	For remote objects, the default filename will refer to a temporary
233	file. Temporary files are removed when the OpenerDirector.close()
234	method is called.
235
236	For file: URLs, at present the returned filename is None. This may
237	change in future.
238
239	If the actual number of bytes read is less than indicated by the
240	Content-Length header, raises ContentTooShortError (a URLError
241	subclass). The exception's .result attribute contains the (filename,
242	headers) that would have been returned.
243
244	"""
245	req = self._request(fullurl, data, False, timeout)
246	scheme = req.get_type()
247	fp = self.open(req)
248	headers = fp.info()
249	if filename is None and scheme == 'file':
250	# XXX req.get_selector() seems broken here, return None,
251	# pending sanity :-/
252	return None, headers
253	#return urllib.url2pathname(req.get_selector()), headers
254	if filename:
255	tfp = open(filename, 'wb')
256	else:
257	path = _rfc3986.urlsplit(req.get_full_url())[2]
258	suffix = os.path.splitext(path)[1]
259	fd, filename = tempfile.mkstemp(suffix)
260	self._tempfiles.append(filename)
261	tfp = os.fdopen(fd, 'wb')
262
263	result = filename, headers
264	bs = self.BLOCK_SIZE
265	size = -1
266	read = 0
267	blocknum = 0
268	if reporthook:
269	if "content-length" in headers:
270	size = int(headers["Content-Length"])
271	reporthook(blocknum, bs, size)
272	while 1:
273	block = fp.read(bs)
274	if block == "":
275	break
276	read += len(block)
277	tfp.write(block)
278	blocknum += 1
279	if reporthook:
280	reporthook(blocknum, bs, size)
281	fp.close()
282	tfp.close()
283	del fp
284	del tfp
285
286	# raise exception if actual size does not match content-length header
287	if size >= 0 and read < size:
288	raise ContentTooShortError(
289	"retrieval incomplete: "
290	"got only %i out of %i bytes" % (read, size),
291	result
292	)
293
294	return result
295
296	def close(self):
297	urllib2.OpenerDirector.close(self)
298
299	# make it very obvious this object is no longer supposed to be used
300	self.open = self.error = self.retrieve = self.add_handler = None
301
302	if self._tempfiles:
303	for filename in self._tempfiles:
304	try:
305	os.unlink(filename)
306	except OSError:
307	pass
308	del self._tempfiles[:]
309
310
311	def wrapped_open(urlopen, process_response_object, fullurl, data=None,
312	timeout=_sockettimeout._GLOBAL_DEFAULT_TIMEOUT):
313	success = True
314	try:
315	response = urlopen(fullurl, data, timeout)
316	except urllib2.HTTPError, error:
317	success = False
318	if error.fp is None: # not a response
319	raise
320	response = error
321
322	if response is not None:
323	response = process_response_object(response)
324
325	if not success:
326	raise response
327	return response
328
329	class ResponseProcessingOpener(OpenerDirector):
330
331	def open(self, fullurl, data=None,
332	timeout=_sockettimeout._GLOBAL_DEFAULT_TIMEOUT):
333	def bound_open(fullurl, data=None,
334	timeout=_sockettimeout._GLOBAL_DEFAULT_TIMEOUT):
335	return OpenerDirector.open(self, fullurl, data, timeout)
336	return wrapped_open(
337	bound_open, self.process_response_object, fullurl, data, timeout)
338
339	def process_response_object(self, response):
340	return response
341
342
343	class SeekableResponseOpener(ResponseProcessingOpener):
344	def process_response_object(self, response):
345	return _response.seek_wrapped_response(response)
346
347
348	class OpenerFactory:
349	"""This class's interface is quite likely to change."""
350
351	default_classes = [
352	# handlers
353	urllib2.ProxyHandler,
354	urllib2.UnknownHandler,
355	_http.HTTPHandler, # derived from new AbstractHTTPHandler
356	_http.HTTPDefaultErrorHandler,
357	_http.HTTPRedirectHandler, # bugfixed
358	urllib2.FTPHandler,
359	_file.FileHandler,
360	# processors
361	_upgrade.HTTPRequestUpgradeProcessor,
362	_http.HTTPCookieProcessor,
363	_http.HTTPErrorProcessor,
364	]
365	if hasattr(httplib, 'HTTPS'):
366	default_classes.append(_http.HTTPSHandler)
367	handlers = []
368	replacement_handlers = []
369
370	def __init__(self, klass=OpenerDirector):
371	self.klass = klass
372
373	def build_opener(self, *handlers):
374	"""Create an opener object from a list of handlers and processors.
375
376	The opener will use several default handlers and processors, including
377	support for HTTP and FTP.
378
379	If any of the handlers passed as arguments are subclasses of the
380	default handlers, the default handlers will not be used.
381
382	"""
383	opener = self.klass()
384	default_classes = list(self.default_classes)
385	skip = []
386	for klass in default_classes:
387	for check in handlers:
388	if type(check) == types.ClassType:
389	if issubclass(check, klass):
390	skip.append(klass)
391	elif type(check) == types.InstanceType:
392	if isinstance(check, klass):
393	skip.append(klass)
394	for klass in skip:
395	default_classes.remove(klass)
396
397	for klass in default_classes:
398	opener.add_handler(klass())
399	for h in handlers:
400	if type(h) == types.ClassType:
401	h = h()
402	opener.add_handler(h)
403
404	return opener
405
406
407	build_opener = OpenerFactory().build_opener
408
409	_opener = None
410	urlopen_lock = _threading.Lock()
411	def urlopen(url, data=None, timeout=_sockettimeout._GLOBAL_DEFAULT_TIMEOUT):
412	global _opener
413	if _opener is None:
414	urlopen_lock.acquire()
415	try:
416	if _opener is None:
417	_opener = build_opener()
418	finally:
419	urlopen_lock.release()
420	return _opener.open(url, data, timeout)
421
422	def urlretrieve(url, filename=None, reporthook=None, data=None,
423	timeout=_sockettimeout._GLOBAL_DEFAULT_TIMEOUT):
424	global _opener
425	if _opener is None:
426	urlopen_lock.acquire()
427	try:
428	if _opener is None:
429	_opener = build_opener()
430	finally:
431	urlopen_lock.release()
432	return _opener.retrieve(url, filename, reporthook, data, timeout)
433
434	def install_opener(opener):
435	global _opener
436	_opener = opener

Note: See TracBrowser for help on using the repository browser.

Download in other formats: