Да чего ты так завелся? Твои пункты 1, 2, и 3 выше и ниже в треде уже раз десять обмусолили и никто с ними не спорит.
Я же описал чуть более конкретную проблему, которая может ломать работу софта даже если закрыть глаза на 1, 2, и 3. А именно - из за дублей софт может неправильно интерпретировать движения в сцене.
Metracryg говорит, что это в программе учтено. Судя по результату не очень заметно, но возможно без этого было бы еще хуже.
Чисто теоретически, нейросети можно обучить и так, что они будут сводить проблемы 1,2,3 на нет. Проблема в том, что тогда брать за ground truth, у нас нет анифации нарисованной в 48фпс. А нейросети обученные на видео из реальной жизни будут фейлить дико по определению, так как они ожидают плавности в движениях и не ожидают дублей.
Это будет адское месиво. Обычно стайл трансфер не включает временную когерентность. Временная когерентность это вообще боль, адекватно оно пока не работает.
Не имеет значения, даже если двух-кратно.
Картинка анимирована так, что не всегда там есть 24 разных картинки на 24 кадра.
Зачастую, анимируют каждый второй, или каждый третий. Т.е. по факту там или 12 или 8 кадров, просто они повторяются.
Это полностью сбивает с толку софт, так как он расчитан на то, чтобы интерполировать не поторяющиеся кадры. Отсюды и каша.
Чтобы сделать интерполяцию более менее коректно, нужно вычленять эти вторые или третие кадры и скармливать софтине толкьо 12 или 8 кадров в секунду. Но по факту это невозможно даже если есть время на это, так как анимация на каждый 2 или третий кадр может быть скомбинирована с плавным движением камеры или фона на каждый первый кадр.
И стрелочки гнуться и прыгают.
Я же описал чуть более конкретную проблему, которая может ломать работу софта даже если закрыть глаза на 1, 2, и 3. А именно - из за дублей софт может неправильно интерпретировать движения в сцене.
Metracryg говорит, что это в программе учтено. Судя по результату не очень заметно, но возможно без этого было бы еще хуже.
Чисто теоретически, нейросети можно обучить и так, что они будут сводить проблемы 1,2,3 на нет. Проблема в том, что тогда брать за ground truth, у нас нет анифации нарисованной в 48фпс. А нейросети обученные на видео из реальной жизни будут фейлить дико по определению, так как они ожидают плавности в движениях и не ожидают дублей.
Картинка анимирована так, что не всегда там есть 24 разных картинки на 24 кадра.
Зачастую, анимируют каждый второй, или каждый третий. Т.е. по факту там или 12 или 8 кадров, просто они повторяются.
Это полностью сбивает с толку софт, так как он расчитан на то, чтобы интерполировать не поторяющиеся кадры. Отсюды и каша.
Чтобы сделать интерполяцию более менее коректно, нужно вычленять эти вторые или третие кадры и скармливать софтине толкьо 12 или 8 кадров в секунду. Но по факту это невозможно даже если есть время на это, так как анимация на каждый 2 или третий кадр может быть скомбинирована с плавным движением камеры или фона на каждый первый кадр.