• Вичитати і підготувати текст
    Виконавець визначений: Eva Nikolaieva

    Необхідно вичитати і підготувати текст.

    ВАЖЛИВО!
    Результат на виході -- непотрібна повна художня адаптація тексту, потрібно лише виконати певні задачі які будуть описані нижче.
    Текст потрібно підготувати для машинного навчання, тож досвід роботи з такими задачами буде великим плюсом.

    Текст - транскрибація аудіо доріжки з декількох відео.
    Оскільки алгоритми не ідеально виконують цей процес, в тексті залишається велика кількість артефактів які потрібно знайти і адаптувати.

    Тексту багато :)

    Підготовка тексту

    Потрібно видалити всі організаційні моменти.
    Видалити привітання і прощання.
    Видалити з тексту повтори-дублі, коли одне речення чи слово повторюються в новій строчці велику кількість разів (там є декілька таких моментів, ви зрозумієте про що я)

    Таймкоди не видаляти!!!

    1 тип артефактів -- слова, які алгоритми не розпізнали і замінили їх на слова які випадають за змістом контексту речення

    2 тип артефактів -- слова, які алгоритми некоректно відмінюють

    3 тип артефактів -- специфічна термінологія, наприклад слово "арбитраж" в тексті алгоритми розпізнали як "орбитаж"
    таких прикладів буде не дуже багато, тому кожний з них буде потрібно окремо замінити на слово без помилки

    або

    4 тип артефактів -- слова-терміни які алгоритми розпізнали нормально, їх непотрібно редагувати, але потрібно виписати їх в окремий список-словник термінів які часто зустрічаються в тексті

    Приклад:
    бл - blacklist
    bl - blacklist
    блек лист - blacklist
    блеклист - blacklist
    блэк лист - blacklist
    блэклист - blacklist
    -------------------------------------

    В будь якому випадку від час роботи з текстом у вас будуть виникати питання, з відповідю на які я буду допомагати.

Вгору