scif_yar: (Default)
[personal profile] scif_yar
Хочу парсер текста. Чтобы загнал туда текст, например субтитров к кино, а он его разобрал на отдельные слова, выкинул дубликаты и отсортировал например по алфавиту.

Конечно, просто парсер - потому что ловить смысловую разницу a/the как-то затруднительно, особенно если она выясняется из контекста, как в примере ниже.
Я общем, как тот гном из анекдота, и сам могу, но лень.

Пока что получается алгоритм такой.
п.1 Берем текст и загоняем его в огромный плоский массив по разделению пробелами.
Не знаю уж, насколько это эффективно, но работать дальше с такой поделенной строкой будет проще.
К тому же я такое уже как-то делал.

п.2 Тут мне напомнили про решето Эратосфена, сдается мне мысль верная.
Берем первое слово, и идем по всему массиву, удаляя такие же.
Переходим к второму, если оно не пустое - то идем по массиву и удаляем такие же.

п.3 Собираем новый массив из всего что не пустое
п.4 Сортируем новый массив и выгружаем в файл.

Как-то так, получается.


Пример ниже: a/the


'You're a bogeyman, aren't you?' she said.
It collapsed in a heap when she took her hand away.
'... Not a... The...' it said.
'What do you mean, the?' said Susan.
'The bogeyman,' said the bogeyman. And she saw how rangy it was, how white and grey streaked its hair, how the skin was stretched over the bones...

Profile

scif_yar: (Default)
scif_yar

December 2025

S M T W T F S
 123456
78910111213
14151617181920
21222324252627
28 293031   

Style Credit

Expand Cut Tags

No cut tags
Page generated Feb. 25th, 2026 07:40 pm
Powered by Dreamwidth Studios