• Помощь с получением всех pdf файлов с сайта arXiv.org
    2400 грн.
    Исполнитель определен: Віталій Жовнірчик pro

    Добрый день, есть такой сайт как "arxiv.org" это онлайн-репозиторий для научных
    статей, предназначенный для распространения научных публикаций и исследовательских
    материалов. Этот ресурс предоставляет открытый доступ к множеству научных статей в различных
    областях науки, включая физику, математику, информатику, биологию, экономику и многие другие дисциплины.

    Они предоставляют API и различные методы для загрузки данных

    Что нужно мне?

    - Все научные статьи которые есть на сайте с pdf файлом
    - Рабочий код который загрузит все 1.1 тб данных мне на локальный диск
    - Если будет возможность то с названиями статьей чтоб понимать что находиться в pdf файле

    Полезные ссылки которые я раздобыл ниже :

    *- https://www.kaggle.com/datasets/Cornell-University/arxiv

    *- Этот набор данных является зеркалом исходных данных ArXiv.
    Поскольку полный набор данных довольно велик 1,1 ТБ и растет
    этот набор данных предоставляет только файл метаданных в json формат.
    Этот файл содержит запись для каждой статьи, содержащую

    В разделе "Code" - "Discussion" так же будут шаблоны кодов или полезности для вас.

    * https://info.arxiv.org/help/bulk_data/index.html

    * Обзор массового доступа - где можно найти методы скачивания всех pdf файлов

Наверх