kmp statistician

Моделирование частотного словаря в Word и Excel

Пояснение (только для глупых)

Работа посвящена "алгоритмизации задач", как важной структурной составляющей компьютерного моделирования.

Алгоритмизация производится на примере решения задачи построения электронного частотного словаря (компьютерной модели текста, автоматически организуемой путем анализа и обработки его лексического состава на основе модели "bag of words").

Средствами решения задачи построения электронного частотного словаря (элементами ее алгоритмизации) выступает инструментарий популярных офисных приложений (компьютерных моделей анализа и обработки информации).

Используются средства обработки и организации связи различных форм (моделей) представления информации: текстовой, числовой, табличной.

Здесь можно познакомиться с материалами о статистической обработке текста.

Здесь можно познакомиться с материалами о применении частотных словарей в языковом образовании.

Создать документ под именем ФамилияЧС
Познакомиться со статьей и статьей (можно, конечно и со статьей). Просмотреть Историю для статей в Русском и Английском разделах Википедии (в том числе: Статистику изменений, Статистику правок, Статистику посещений) в документ ФамилияЧС вставить рукописно подписанные Вашей Фамилией скриншоты:

со Статистикой посещений (для обоих разделов) за последние 90 дней (см. образец для русскоязычной статьи о Национальном Корпусе Русского Языка)

с Историей изменений (Edit history) - искать на странице и странице) - (см. образец для русскоязычной статьи о Национальном Корпусе Русского Языка)

Познакомиться со статьей и статьей.
Литературные (толстые) журналы, представляют современную художественную литературу на русском языке и являются важнейшим источником ее лингвистического анализа, в том числе методами компьютерной лингвистики
Посетить Журнальный зал, прочесть О проекте, познакомиться с изданиями. Открыть раздел Авторы и заполнить в документе ФамилияЧС Таблицу:

Фамилия Имя Отчество знает и читает
Литературные журналы (все, что читаете): не обязательно из Журнального зала, есть и не присутствующие там, замечательные русскоязычные. Например: Москва или Наш современник ёсть беларускамоўныя: Полымя, Маладосць або Дзеяслоў
Авторов (Фамилия Имя, произведение) из раздела Авторы (несколько самых-самых)
Кого из СОВРЕМЕННЫХ писателей читаете и почему (зачем)	авторы причина ... цель

Если Вы никого и ничего не читали, то ... прочесть текст и оставить Таблице свой умный комментарий к нему.

Создать документ Word, заполнить его метаданные (согласно образца) и сохранить его под именем ФамилияW.
Выбрать в Журнальном зале произведение (не менее 1000 слов). Скопировать текст в ФамилияW и проверив правильность своего выбора в свойствах документа Word и вставить в документ ФамилияЧС скрин (согласно образца)
Избавиться в документе ФамилияW от всех знаков пунктуации в тексте и вынести каждое слово в отдельный абзац. Это можно сделать с помощью меню Замена используя подстановочные значки.
Для замены знаков препинания необходимо включить опцию «Подстановочные знаки» (включается по кнопке «Больше >>»). Не все знаки пунктуации можно перечислять «как есть», некоторые из них сами являются командой для функции подстановочных знаков, поэтому их нужно перечислять через обратный слеш \! или \?.
Дефис исключаем из перечня, иначе слова с дефисом будут разделены на два отдельных слова
Только для тех, кто так и не понял см. подсказку
Избавиться от двойных пробелов и от пустых абзацев, что можно сделать последовательно заменяя два абзаца на один (при отключенных Подстановочных значках!).
Отсортировать текст по возрастанию. Только для тех, кто так и не понял см. подсказку
Создать документ Excel, заполнить его метаданные и сохранить под именем ФамилияE.
Переименовать Лист1 в Фамилия. Сделать заголовок первого столбца по образцу (ФИО должны быть Ваши собственные).
Вставить в первый столбец на лист Фамилия документа ФамилияE текст из документа Word ФамилияW.
Выделить первый столбец (с текстом) и на вкладке Вставка слева выбрать Сводная таблица. Указать помещение отчета для сводной таблицы на новый лист- см. подсказку
Включить поле Словоформы (слева появятся уникальные слова из столбца) и перетащить включенное поле вниз в поле Значения (с пиктограммой суммы Σ – появится количество для каждого из слов) - см. подсказку
Отсортировать (используя фильтр - вкладка Данные) Итог по убыванию (от Я до А), чтобы большее количество употреблений было вверху - см. подсказку
В полученном результате выделить 20 наиболее частотных словоформ, сделать (с помощью программы Ножницы, например) скрин, подписать его (рукописно) своей Фамилией и вставить в документ ФамилияЧС - см. образец
Переименовать Лист с отчетом в Фамилия2 и сохранить документ Excel

Сравнив 7 наиболее частотных слов в избранном Вами тексте с рейтингами частотности русского языка по НКРЯ и Штейнфельдту заполнить в ФамилияЧС Таблицу:

Автор, название текста
Место по частотности в тексте	Частотные слова	Мето в рейтинге по Штейнфельдту	Место в рейтинге по НКРЯ
1
2
3
4
5
6
7

Познакомиться со статьей о законе Ципфа (хорошо бы и эту статью посмотреть) и разобраться с законом.

Установить, на примере трех частотных слов, степень соответствия частотного словаря избранного Вами текста:

частотности лексики русского языка по Штейнфельдту и НКРЯ

Закону Ципфа

Заполнить в в ФамилияЧС Таблицу:

Вопрос	Ответ
степень соответствия частотного словаря избранного Вами текста наилучшим образом соответствует	Штейнфельдту/НКРЯ
соответствие частотного словаря избранного Вами текста закону Ципфа	Ваше грамотное описание соответствий и расхождений

Отослать письмо с отзывом и файлами ФамилияЧС, ФамилияW и ФамилияE

kmp