Итак, я попытался сделать нейросетевую классификацию по тредам, и не преуспел. Давайте попробуем погенерить новые идеи. Я пробовал много чего, лучшую точность из моих попыток дал catboost поверх эмбеддингов от предобученного intfloat/multilingual-e5-large, точность вышла 52%, балансированная точность 28%.
Трейновые данные - 138 постов: https://mega.nz/file/Buk32Drb#mi0FXrowDxgPYMrVJZtn1Z8rBal24K0JtL5062135cI
Тестовые данные - 100 постов: https://mega.nz/file/Y3snXKxZ#Bz93pnHhbwAjqW9VvtlRgwqv4EM5TS7O95j034v_C38
Описание данных:
* id - id поста. Ссылка на пост имеет вид notq.ru/{id}
* rating - рейтинг поста на момент парсинга
* author - автор поста
* title - заголовок
* text - тело поста
* thematic - целевая переменная, тема поста
Темы:
* culture
* education
* history
* meta
* prog
* science
* other