Розбиття PDF на сторінки з визначенням імен за шаблоном за допомогою AWS Lambda та S3
3500 грн.

Мета: Розбити багатосторінкові PDF на окремі сторінки та витягти імена за шаблоном.

Технології: Python3, Django, boto3, pandas, AWS S3, AWS Lambda, AWS SNS

Кроки:

S3 Trigger: Запуск Lambda функції при завантаженні нового PDF в S3.
Lambda Function:
Завантажити PDF з S3.
Розділити PDF на окремі сторінки.
Для кожної сторінки:
Витягти текст.
Знайти шаблон у тексті, відповідно до імені файлу (username_patternname_pdfname.pdf).
Зберегти результати в базу даних або журнал.
Опційно видалити PDF після обробки.
Розгляд аспектів:

Складність шаблонів: Підготовка до обробки простих і складних шаблонів.
Масштабування: Можливе використання черг (SQS) для обробки великих обсягів.
Безпека: Налаштування прав доступу для S3 і Lambda.
База даних: Вибір відповідної бази даних (DynamoDB, RDS).

Робота додана: 05.07.24

Вгору