scif_yar

Хочу парсер текста. Чтобы загнал туда текст, например субтитров к кино, а он его разобрал на отдельные слова, выкинул дубликаты и отсортировал например по алфавиту.

Конечно, просто парсер - потому что ловить смысловую разницу a/the как-то затруднительно, особенно если она выясняется из контекста, как в примере ниже.
Я общем, как тот гном из анекдота, и сам могу, но лень.

Пока что получается алгоритм такой.
п.1 Берем текст и загоняем его в огромный плоский массив по разделению пробелами.
Не знаю уж, насколько это эффективно, но работать дальше с такой поделенной строкой будет проще.
К тому же я такое уже как-то делал.

п.2 Тут мне напомнили про решето Эратосфена, сдается мне мысль верная.
Берем первое слово, и идем по всему массиву, удаляя такие же.
Переходим к второму, если оно не пустое - то идем по массиву и удаляем такие же.

п.3 Собираем новый массив из всего что не пустое
п.4 Сортируем новый массив и выгружаем в файл.

Как-то так, получается.

Пример ниже: a/the

'You're a bogeyman, aren't you?' she said.
It collapsed in a heap when she took her hand away.
'... Not a... The...' it said.
'What do you mean, the?' said Susan.
'The bogeyman,' said the bogeyman. And she saw how rangy it was, how white and grey streaked its hair, how the skin was stretched over the bones...

S	M	T	W	T	F	S
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

Про парсеры

Про парсеры

Profile

December 2025

Most Popular Tags

Style Credit

Expand Cut Tags