Необхідно вичитати і підготувати текст.
ВАЖЛИВО!
Результат на виході -- непотрібна повна художня адаптація тексту, потрібно лише виконати певні задачі які будуть описані нижче.
Текст потрібно підготувати для машинного навчання, тож досвід роботи з такими задачами буде великим плюсом.
Текст - транскрибація аудіо доріжки з декількох відео.
Оскільки алгоритми не ідеально виконують цей процес, в тексті залишається велика кількість артефактів які потрібно знайти і адаптувати.
Тексту багато :)
Підготовка тексту
Потрібно видалити всі організаційні моменти.
Видалити привітання і прощання.
Видалити з тексту повтори-дублі, коли одне речення чи слово повторюються в новій строчці велику кількість разів (там є декілька таких моментів, ви зрозумієте про що я)
Таймкоди не видаляти!!!
1 тип артефактів -- слова, які алгоритми не розпізнали і замінили їх на слова які випадають за змістом контексту речення
2 тип артефактів -- слова, які алгоритми некоректно відмінюють
3 тип артефактів -- специфічна термінологія, наприклад слово "арбитраж" в тексті алгоритми розпізнали як "орбитаж"
таких прикладів буде не дуже багато, тому кожний з них буде потрібно окремо замінити на слово без помилки
або
4 тип артефактів -- слова-терміни які алгоритми розпізнали нормально, їх непотрібно редагувати, але потрібно виписати їх в окремий список-словник термінів які часто зустрічаються в тексті
Приклад:
бл - blacklist
bl - blacklist
блек лист - blacklist
блеклист - blacklist
блэк лист - blacklist
блэклист - blacklist
-------------------------------------
В будь якому випадку від час роботи з текстом у вас будуть виникати питання, з відповідю на які я буду допомагати.