shelfzilla/crawler/crawler/pipelines.py

# -*- coding: utf-8 -*-
from scrapy.exceptions import DropItem


class DuplicatesPipeline(object):
    def __init__(self):
        self.seen = set()

    def process_item(self, item, spider):
        if item['uuid'] in self.seen:
            raise DropItem("Duplicate found: %s" % item)
        else:
            self.seen.add(item['uuid'])
            return item


class CheckLanguagePipeline(object):
    def process_item(self, item, spider):
        if u'CATALÁN' in item['uuid'].upper():
            raise DropItem("Not supported language: %s" % item)
        else:
            return item


class CleanFieldsPipeline(object):
    fields = ('isbn', 'price', )

    def clean_isbn(self, item):
        isbn = item['isbn'].replace('-', '')

        if len(isbn) < 13:
            isbn = isbn[0:10]

        return isbn

    def clean_price(self, item):
        price = float(item['price'][:-1].replace(',', '.'))

        return price


    def process_item(self, item, spider):
        for field in self.fields:
            if field in item:
                item[field] = getattr(self, 'clean_%s' % field)(item)

        return item
Crawlers [norma editorial] Base 2014-10-07 17:22:21 +00:00			`# -- coding: utf-8 --`
			`from scrapy.exceptions import DropItem`


			`class DuplicatesPipeline(object):`
			`def __init__(self):`
			`self.seen = set()`

			`def process_item(self, item, spider):`
			`if item['uuid'] in self.seen:`
			`raise DropItem("Duplicate found: %s" % item)`
			`else:`
			`self.seen.add(item['uuid'])`
			`return item`


			`class CheckLanguagePipeline(object):`
			`def process_item(self, item, spider):`
			`if u'CATALÁN' in item['uuid'].upper():`
			`raise DropItem("Not supported language: %s" % item)`
			`else:`
			`return item`


			`class CleanFieldsPipeline(object):`
			`fields = ('isbn', 'price', )`

			`def clean_isbn(self, item):`
			`isbn = item['isbn'].replace('-', '')`

			`if len(isbn) < 13:`
			`isbn = isbn[0:10]`

			`return isbn`

			`def clean_price(self, item):`
			`price = float(item['price'][:-1].replace(',', '.'))`

			`return price`


			`def process_item(self, item, spider):`
			`for field in self.fields:`
			`if field in item:`
			`item[field] = getattr(self, 'clean_%s' % field)(item)`

			`return item`