Использование частотных словарей

 

 

Частотный словарь языка - пронумерованный список слов (словоформ, словосочетаний) с указанием абсолютной частоты употребления этого слова в разговорной практике

Частотный словарь текста - пронумерованный список слов (словоформ, словосочетаний) текста (множества текстов) с указанием абсолютной частоты употребления этого слова в тексте

 

 

 

Из первых уст

 

Костомаров Виталий Григорьевич (Президент Государственного института русского языка им. А.С. Пушкина):

  • Идея учебного словаря, по-настоящему она была сформулирована именно у нас в Институте. Мы впервые посмотрели на словарь как на словарь обучающий, и поэтому получилось, что, например, англо­русских словарей может быть несколько.

  • Известно, что произношение и написание в английском языке очень сильно расходятся, а в русском языке практически нет (надо знать только правила оглушения, редукции гласных и др.). В англо­русском словаре для англичан транскрипция не нужна, а в таком же словаре для русских она является одной из главных частей.

  • Раньше частотные словари создавались только в научных целях, а мы впервые подвели его под рамки учебного. Поэтому у нас такой словарь стал сопрягаться с идеей минимизации состава словаря. Например, был выпущен словарь под названием «Минимумы русской лексики».

  • Очень продуктивной была идея совмещения преподавания русского языка с познанием российской культуры, мы назвали это лингвострановедением. Сейчас это очень развитая отрасль, которая уже принята в большой науке, а тогда нас ругали даже за это слово.

 

 

 

Частотный словарь в помощь учителю (ученику)

 

Чем же может помочь частотный словарь учителю, ученику, исследователю иностранного языка?

Прежде всего частотный словарь, полученный путем анализа достаточно большого текстового фрагмента (повести, романа), демонстрирует богатство лексикона автора и его отличие от словаря Эллочки-людоедки.

Так, например, если мы возьмемся проанализировать и сравнить словарные запасы Вальтера Скотта, Рафаэля Сабатини (для него английский язык был не родной, так как Сабатини по происхождению итальянец) и Джоанны Роулинг по их произведениям «Ivanhoe», «Captain Blood. His Odyssey» и «Harry Potter and the Philosopher ’s Stone» соответственно, то должны будем заметить, что:

  • «Ivanhoe» содержит 13227 разных словоформ

  • «Captain Blood. His Odyssey» – 9498,

  • «Harry Potter and the Philosopher’ s Stone» – только лишь 6015,  (и это не смотря на фантастическую речь Хагрида, язык которого существенно отличается от стандартного английского!)

Слова могут быть в различных формах. Например: use, using, used будут разными словоформами.

Это говорит о том, что человек со словарным запасом 2 – 4 тысячи слов без особых проблем сможет читать «Гарри Поттера» в оригинале. С «Капитаном Бладом» дело будет обстоять несколько сложнее, не говоря уже о доблестном рыцаре Айвенго.

Также легко преподаватель, используя частотный словарь, может определить необходимый словарный запас своих учеников для более-менее успешного чтения текста.

При этом, если текст достаточно большой, ученику (читателю) вполне достаточно будет знаний слов, встречающихся в тексте более 2-3 раз, тогда как именно последние придают тексту тот самый окрас, который может быть характерным только для определенного автора.

В научном определении массива наиболее значимых для понимания языка лексических единиц большую помощь может оказать частотный словарь современного разговорного языка.

 

 

 

 

Список самых труднопроизносимых слов английского

 

18.09.2008 Британские исследователи выяснили, какие слова английского языка вызывают наибольшие затруднения.

Список из двадцати самых трудных для произнесения слов

1. Phenomenon (феномен).

2. Anaesthetist (анестезиолог)

3. Remuneration (вознаграждение)

4. Statistics (статистика)

5. Ethnicity (этническая принадлежность)

6. Philosophical (философский)

7. Provocatively (вызывающе)

8. Anonymous (анонимный)

9. Thesaurus (тезаурус или сокровищница)

10. Aluminium (алюминий)

11. Regularly (правильно, регулярно)

12. February (февраль)

13. Particularly (в особенности)

14. Hereditary (наследственный)

15. Prioritising (определение приоритетов)

16. Pronunciation (произношение)

17. Prejudice (предубеждение)

18. Facilitate (облегчать)

19. Hospitable (гостеприимный)

20. Onomatopoeiaноматопия, звукоподражание)

Британцы чаще всего неправильно произносят слова, в которых на письме близко стоят буквы 'm' и 'n', а также 't', 's' и сочетание 'th'.

34% (из 3000 опрошенных) часто поправляют людей, которые неправильно произносят какие-либо слова.

25% респондентов считает, что ошибки в произнесении слов указывают на недостаток образования.

 

 

 

 

Частотный Англо-Русский словарь

(начало списка)

 

of

предл)принадлежность

and

и

and so on

и так далее

by and by

вскоре

raining cats and dogs

лить как из ведра

in

в

to

к,в,на(->направ.);на,до(->предел);до,в(->высшая ст

it

это;он ему у него это

is

быть должен являться;г)находиться есть имеется ли

was

был >быть

i

я;у меня;мне

for

для;за;в)в течение

as for the

что касается

for !мес!

на

for `dollars`

на

for `loss`

за

for `period`

на

for `reason`

по

for `thank`

за

for `pay`

за

for `$`

на

for `good`~[]

навсегда

for details

относительно деталей

for troubling

за беспокойство

for up to

вплоть до

go in for

заниматься

uncalled for

неуместный

you

вы;вас; вам

for troubling you

за беспокойство

he

он у него ему

be

быть нужно

with

с,с помощью

as contrasted with

в противоположность

as with

как и как и

racked with

измученный

with it

с ним

with me

со мной

with no

без

with views of

с видами

with you

с вами

on

на;включать

that

тот,та,то,этот;который,кто,что;это;чтобы;(п)

be that the

быть в том, что

in that it

в том, что это

is that ,

в том, что

it appears that

оказывается, что

so that

так, что

that of

тот же самый

that of the

тот самый

by

т)к,на

at

в...

are

- являться есть есть ли есть у

you are on

вы имеете дело с

you are wellcome

добро пожаловать

not

не нет не

is not to

не должен

so as not to

так, что не

this

это этот

for this is that

этого в том, что

this `all`[]

все они

this `way`[~]

таким образом

but

но лишь

but for

если бы не

but to

а

with but

за исключением

they

они у них им

they the

они

his

его

from

от;из

as from

начиная с

for changing from

для перехода от

from time-to-time

время от времени

to or from

на или из

had

иметь быть

had to

должен

she

она у нее ей

which

какой , который,что

as that to which

на который

in which to

, чтобы

of which

из который

on which to

к чему

that which

тот который

to which

на который

to which of

в который из

which is a

который являться

which of

какой из

which of the

который из

or

или

we

мы у нас нам

were

быть быть

as it were

как бы

been

>быть

it had been the

это было

have

иметь есть быть нет позволять

be to have

должен иметь

do have

иметь есть

have `to`

должен

have but to

должен лишь

have had

иметь иметь

 

 

 

Частотный словарь в помощь исследователю

 

Частотный словарь также может указать на особенности письменной речи автора анализируемых строк.

Если мы говорим о тексте на английском языке, то в нем, очевидно доминирующую позицию по частоте использования будут занимать артикль «the» и предлоги, местоимения. Подобный вывод подтверждается уже приведенным анализом текстов   «Айвенго», «Капитана Блада» и «Гарри Поттера»

 

1

the

2

of

3

and

4

to

5

a

6

in

7

his

8

i

9

he

10

with

 

Но отличительной чертой «Гарри Поттера», как образца современной английской речи, является присутствие уже в первой десятке имени Harry. Также близко к вершине подиума стоят имена Ron, Hagrid, и, в некотором отдалении, Hermione.

Частое использование в тексте имен говорит либо о большом количестве диалогов, когда герои обращаются друг к другу по имени, либо о повествовании в жанре «Action», когда в тексте в изобилии содержатся выражения типа «Гарри пошел», «Рон сделал» и т.п.

Кроме того, частотный словарь способен помочь исследователю в определении часто употребляемых групп слов, выделяемых по какому-либо дополнительному признаку. Например, нам необходимо узнать: какие определения использовали писатели для указания «нехорошего» человека? Обычный словарь нам может дать примерно следующий список: cad, git, heel, knave, rascal, rogue, scamp, scoundrel, villain – негодяй, мерзавец, подлец.

Создавая частотный словарь, мы выявляем все нюансы употребления слов данной группы в произведениях выбранных авторов. Здесь можно проследить зависимость речи от времени жизни, места проживания, жанра, социального статуса автора.

В частности, слово «git» встречается только в произведениях Дж. К. Роулинг, слово «scoundrel» характерно лишь для Сабатини, тогда как «knave» встречается в «Айвенго» 33 раза, у Сабатини – лишь 2 раза и не встречается в «Гарри Поттере» совсем.

Вывод: Частотный словарь может стать для преподавателя, исследователя языка источником информации для принятия необходимых решений и коррекции ставших уже традиционными действий. Особенно актуальным частотный словарь может стать для любителя чтения оригинальных текстов, поскольку знание часто употребляемых слов становится очевидно необходимым, а освоение словарного запаса, состоящего из редко употребляемых слов, может придать процессу чтения статус более глубокого, насыщенного красками, позволяет прочувствовать язык автора.

 

 

 

 

Частотный словарь Интернета

 

14.10.2009 Александр Долгих (зав. кафедрой Прагматики культуры ГУ-ВШЭ, управляющий Имхонет):

Интернет располагают отличной базой для такого рода аналитики современного языка.

Там собирается информация о реальных (а не предполагаемых) предпочтениях людей, есть оценки и описания миллионов объектов, и все суждения имеют персональную привязку.

Благодаря этому можно получать любые срезы: социодемографические, гендерные, вкусовые... В системе зарыто колоссальное количество ответов на эти и другие незаданные вопросы.

 

14.10.2009 Михаил Эпштейн (филолог, философ, профессор теории культуры университета Эмори (Атланта, США), руководитель Центра творческого развития русского языка): Из разноязычного Интернета вырисовывается очень показательная картина. Например, в Рунете имя Шекспира употребляется гораздо чаще, чем Пушкина или Достоевского в аглоязычном Интернете. Но если посмотреть на популярность Пушкина внутри русской культуры и Шекспира внутри английской культуры, Пушкин окажется выше – он упоминается на каждой 38-й странице Рунета, а Шекспир – на каждой 216-й странице Ангнета, что статистически подтверждает наш литературоцентризм.

Михаил Эпштейн: Известно, что в русском языке предлог «в» – самое частое слово (встречается 1 раз на каждые 23 слова): в английском это определенный артикль the (каждое из 16 слов). Таким образом, достаточно взять частоту употребления этих слов, умножить на 23 или на 16 – и можно получить приблизительный объем Рунета и Ангнета. Получается, что англоязычный Интернет по объему слов примерно в 50 раз больше, чем Рунет.

Михаил Эпштейн: Я беседовал с людьми из Google, из Силиконовой долины, они говорят, что цифры не совсем надежны. Кроме того, время от времени показатели меняются. Если бы удалось наладить точный сбор сетевой статистики, мы приобрели бы неоценимые социологические данные. Например, как соотносятся в английском и русском языках такие понятия, как man и woman, «мужчина» и «женщина»? Цифры сразу позволили бы оценить сравнительные масштабы феминизма.

Михаил Эпштейн: Судя по Google, Россия сейчас занимает 13-е место среди держав, интересующих англоязычный мир. Она идет после Мексики, Кореи, Бразилии, Израиля, чуть выше, чем Иран, Индонезия и Турция. Я ориентируюсь на количество «гугликов» – сколь часто, по данным Гугла, слово «Россия» употребляется в англоязычном Инете. Кстати, каждый из нас может поинтересоваться, сколько у него гугликов.

Михаил Эпштейн: Статистика слов по их частоте употребления в Инете – серьезный ориентир в оценке общественной важности тех или иных явлений. Например, кто главный философ в сознании Запада и России? Судя по данным Google, все еще Маркс, причем на Западе тоже. Потом Энгельс. И лишь затем идут Кант, Сократ, Платон, Аристотель, Ницше (в таком порядке).

Михаил Эпштейн: Интернет позволяет понять, что значит, например, дуб для немецкого языка и что – для русского. Что важнее для русского менталитета – дуб или береза, то есть женственное (белое, кружевное) или мужеское (кряжистое, могучее). Не воспользоваться новыми сетевыми возможностями было бы грандиозным упущением лингвистики. Инет позволяет определить вес слова в ментальности народа и тем самым точнее охарактеризовать саму ментальность.

Михаил Эпштейн: В ряде стран проводятся акции «Слово года». В США этим занимается Американское диалектное общество, в которое входят крупнейшие лингвисты, журналисты, педагоги. С 2007 года я провожу такой конкурс в Международной ассоциации преподавателей русского языка и литературы. Словами 2008 года, стали «кризис», «коллайдер» и «великодержавность». В 2007 году лидировали «гламур», «нано», «блог/блогер». В 2009 году на статус «Слово года» претендуют: «новые бедные», «обвал», «передел»...  Выбор знаковых слов – это рефлексия общества над тем, что составляет основной нерв минувшего года. Поэтому «Слово года» – акция, имеющая важное общественно-языковое значение.

kmp