Добрый день, есть такой сайт как "arxiv.org" это онлайн-репозиторий для научных
статей, предназначенный для распространения научных публикаций и исследовательских
материалов. Этот ресурс предоставляет открытый доступ к множеству научных статей в различных
областях науки, включая физику, математику, информатику, биологию, экономику и многие другие дисциплины.
Они предоставляют API и различные методы для загрузки данных
Что нужно мне?
- Все научные статьи которые есть на сайте с pdf файлом
- Рабочий код который загрузит все 1.1 тб данных мне на локальный диск
- Если будет возможность то с названиями статьей чтоб понимать что находиться в pdf файле
Полезные ссылки которые я раздобыл ниже :
*- https://www.kaggle.com/datasets/Cornell-University/arxiv
*- Этот набор данных является зеркалом исходных данных ArXiv.
Поскольку полный набор данных довольно велик 1,1 ТБ и растет
этот набор данных предоставляет только файл метаданных в json формат.
Этот файл содержит запись для каждой статьи, содержащую
В разделе "Code" - "Discussion" так же будут шаблоны кодов или полезности для вас.
* https://info.arxiv.org/help/bulk_data/index.html
* Обзор массового доступа - где можно найти методы скачивания всех pdf файлов