Использование
частотных словарей |
Частотный
словарь языка -
пронумерованный
список слов (словоформ,
словосочетаний)
с указанием абсолютной частоты употребления этого слова в
разговорной практике
Частотный
словарь текста -
пронумерованный
список слов (словоформ,
словосочетаний)
текста (множества
текстов) с
указанием
абсолютной
частоты
употребления
этого слова в
тексте
|
Из первых уст
Костомаров
Виталий Григорьевич
(Президент Государственного института русского языка им. А.С. Пушкина):
-
Идея учебного словаря, по-настоящему она была
сформулирована именно у нас в Институте. Мы впервые
посмотрели на словарь как на словарь обучающий, и
поэтому получилось, что, например, англорусских словарей может быть несколько.
-
Известно, что произношение и написание в английском языке очень сильно расходятся, а в русском языке практически нет (надо знать только правила оглушения, редукции гласных и др.). В англорусском словаре для англичан транскрипция не нужна, а в таком же словаре для русских она является одной из главных частей.
-
Раньше частотные словари создавались только в научных целях, а мы впервые
подвели его под рамки учебного. Поэтому у нас такой словарь стал сопрягаться с идеей минимизации состава словаря. Например, был выпущен словарь под названием «Минимумы русской лексики».
-
Очень продуктивной была идея совмещения преподавания русского языка с познанием российской культуры, мы назвали это лингвострановедением. Сейчас это очень развитая отрасль, которая уже принята в большой науке, а тогда нас ругали даже за это слово.
|
Частотный словарь
в помощь учителю (ученику)
Чем же может помочь частотный словарь учителю,
ученику, исследователю иностранного языка?
Прежде всего
частотный словарь, полученный путем анализа достаточно
большого текстового фрагмента (повести, романа), демонстрирует
богатство лексикона автора и его отличие от словаря
Эллочки-людоедки.
Так, например, если мы возьмемся
проанализировать и сравнить словарные запасы Вальтера Скотта,
Рафаэля Сабатини (для него английский язык был не родной, так
как Сабатини по происхождению итальянец) и Джоанны Роулинг по
их произведениям «Ivanhoe»,
«Captain
Blood. His Odyssey» и «Harry
Potter and the Philosopher ’s Stone» соответственно, то
должны будем заметить, что:
-
«Ivanhoe» содержит 13227 разных
словоформ
-
«Captain Blood. His
Odyssey» – 9498,
-
«Harry Potter and the Philosopher’ s Stone»
– только лишь 6015,
(и это не смотря на фантастическую речь Хагрида, язык которого существенно отличается от стандартного английского!)
Слова
могут быть в различных формах. Например: use, using, used будут
разными словоформами.
Это говорит о том, что
человек со словарным запасом 2 – 4 тысячи слов без особых
проблем сможет читать «Гарри Поттера» в оригинале. С
«Капитаном Бладом» дело будет обстоять несколько сложнее, не
говоря уже о доблестном рыцаре Айвенго.
Также легко преподаватель, используя частотный
словарь, может определить необходимый словарный запас своих
учеников для более-менее успешного чтения текста.
При этом,
если текст достаточно большой, ученику (читателю) вполне
достаточно будет знаний слов, встречающихся в тексте более 2-3
раз, тогда как именно последние придают тексту тот самый
окрас, который может быть характерным только для определенного
автора.
В научном определении массива
наиболее значимых для понимания языка лексических единиц
большую помощь может оказать частотный словарь современного
разговорного языка. |
Список самых труднопроизносимых слов
английского
18.09.2008
Британские исследователи выяснили, какие слова английского языка
вызывают наибольшие затруднения.
Список из двадцати самых трудных для произнесения
слов
1.
Phenomenon
(феномен).
2.
Anaesthetist
(анестезиолог)
3.
Remuneration
(вознаграждение)
4.
Statistics
(статистика)
5.
Ethnicity
(этническая принадлежность)
6.
Philosophical
(философский)
7.
Provocatively
(вызывающе)
8.
Anonymous
(анонимный)
9.
Thesaurus
(тезаурус или сокровищница)
10.
Aluminium
(алюминий)
11.
Regularly
(правильно, регулярно)
12.
February
(февраль)
13.
Particularly
(в особенности)
14.
Hereditary
(наследственный)
15.
Prioritising
(определение приоритетов)
16.
Pronunciation
(произношение)
17.
Prejudice
(предубеждение)
18.
Facilitate
(облегчать)
19.
Hospitable
(гостеприимный)
20.
Onomatopoeia
(ономатопия,
звукоподражание)
Британцы чаще всего неправильно произносят
слова, в которых на письме близко стоят буквы 'm' и 'n', а также 't',
's' и сочетание 'th'.
34%
(из 3000 опрошенных)
часто поправляют людей, которые неправильно произносят какие-либо слова.
25% респондентов
считает, что ошибки в произнесении слов указывают на недостаток
образования. |
Частотный
Англо-Русский словарь
(начало списка)
of |
предл)принадлежность |
and |
и |
and so
on |
и так
далее |
by and
by |
вскоре |
raining
cats and dogs |
лить как
из ведра |
in |
в |
to |
к,в,на(->направ.);на,до(->предел);до,в(->высшая
ст |
it |
это;он
ему у него это |
is |
быть
должен являться;г)находиться есть имеется ли |
was |
был >быть |
i |
я;у меня;мне |
for |
для;за;в)в
течение |
as for
the |
что
касается |
for !мес! |
на |
for
`dollars` |
на |
for
`loss` |
за |
for
`period` |
на |
for
`reason` |
по |
for
`thank` |
за |
for
`pay` |
за |
for `$` |
на |
for
`good`~[] |
навсегда |
for
details |
относительно деталей |
for
troubling |
за
беспокойство |
for up
to |
вплоть
до |
go in
for |
заниматься |
uncalled
for |
неуместный |
you |
вы;вас;
вам |
for
troubling you |
за
беспокойство |
he |
он у
него ему |
be |
быть
нужно |
with |
с,с
помощью |
as
contrasted with |
в
противоположность |
as with |
как и
как и |
racked
with |
измученный |
with it |
с ним |
with me |
со мной |
with no |
без |
with
views of |
с видами |
with you |
с вами |
on |
на;включать |
that |
тот,та,то,этот;который,кто,что;это;чтобы;(п) |
be that
the |
быть в
том, что |
in that
it |
в том,
что это |
is that
, |
в том,
что |
it
appears that |
оказывается, что |
so that |
так, что |
that of |
тот же
самый |
that of
the |
тот
самый |
by |
т)к,на |
at |
в... |
are |
-
являться есть есть ли есть у |
you are
on |
вы
имеете дело с |
you are
wellcome |
добро
пожаловать |
not |
не нет
не |
is not
to |
не
должен |
so as
not to |
так, что
не |
this |
это этот |
for this
is that |
этого в
том, что |
this
`all`[] |
все они |
this
`way`[~] |
таким
образом |
but |
но лишь |
but for |
если бы
не |
but to |
а |
with but |
за
исключением |
they |
они у
них им |
they the |
они |
his |
его |
from |
от;из |
as from |
начиная
с |
for
changing from |
для
перехода от |
from
time-to-time |
время от
времени |
to or
from |
на или
из |
had |
иметь
быть |
had to |
должен |
she |
она у
нее ей |
which |
какой ,
который,что |
as that
to which |
на
который |
in which
to |
, чтобы |
of which |
из
который |
on which
to |
к чему |
that
which |
тот
который |
to which |
на
который |
to which
of |
в
который из |
which is
a |
который
являться |
which of |
какой из |
which of
the |
который
из |
or |
или |
we |
мы у нас
нам |
were |
быть
быть |
as it
were |
как бы |
been |
>быть |
it had
been the |
это было |
have |
иметь
есть быть нет позволять |
be to
have |
должен
иметь |
do have |
иметь
есть |
have
`to` |
должен |
have but
to |
должен
лишь |
have had |
иметь
иметь |
Частотный словарь
в помощь исследователю
Частотный словарь также может указать на
особенности письменной речи автора анализируемых строк.
Если
мы говорим о тексте на английском языке, то в нем, очевидно
доминирующую позицию по частоте использования будут занимать
артикль «the» и предлоги, местоимения. Подобный вывод
подтверждается уже приведенным анализом текстов
«Айвенго», «Капитана Блада» и «Гарри Поттера»
1 |
the
|
2 |
of
|
3 |
and
|
4 |
to
|
5 |
a
|
6 |
in
|
7 |
his
|
8 |
i
|
9 |
he
|
10 |
with
|
Но отличительной чертой
«Гарри Поттера», как образца современной английской речи, является
присутствие уже в первой десятке имени Harry. Также
близко к вершине подиума стоят имена Ron,
Hagrid, и, в некотором отдалении, Hermione.
Частое использование в тексте имен говорит
либо о большом количестве диалогов, когда герои обращаются
друг к другу по имени, либо о повествовании в жанре «Action»,
когда в тексте в изобилии содержатся выражения типа «Гарри
пошел», «Рон сделал» и т.п.
Кроме того, частотный словарь способен помочь
исследователю в определении часто употребляемых групп слов,
выделяемых по какому-либо дополнительному признаку. Например,
нам необходимо узнать: какие определения использовали писатели
для указания «нехорошего» человека? Обычный словарь нам может
дать примерно следующий список: cad, git, heel, knave,
rascal, rogue, scamp, scoundrel, villain – негодяй,
мерзавец, подлец.
Создавая частотный словарь, мы выявляем все
нюансы употребления слов данной группы в произведениях
выбранных авторов. Здесь можно проследить зависимость речи от
времени жизни, места проживания, жанра, социального статуса
автора.
В частности, слово «git» встречается только в
произведениях Дж. К. Роулинг, слово «scoundrel» характерно
лишь для Сабатини, тогда как «knave» встречается в «Айвенго»
33 раза, у Сабатини – лишь 2 раза и не встречается в «Гарри
Поттере» совсем.
Вывод:
Частотный словарь может стать для преподавателя, исследователя
языка источником информации для принятия необходимых решений и
коррекции ставших уже традиционными действий. Особенно
актуальным частотный словарь может стать для любителя чтения
оригинальных текстов, поскольку знание часто употребляемых
слов становится очевидно необходимым, а освоение словарного
запаса, состоящего из редко употребляемых слов, может придать
процессу чтения статус более глубокого, насыщенного красками,
позволяет прочувствовать язык автора.
|
Частотный словарь
Интернета
14.10.2009
Александр Долгих
(зав.
кафедрой Прагматики культуры ГУ-ВШЭ, управляющий Имхонет):
Интернет располагают отличной базой для такого рода аналитики
современного языка.
Там собирается информация о реальных (а не предполагаемых) предпочтениях людей, есть оценки и описания миллионов объектов, и все суждения имеют персональную привязку.
Благодаря этому можно получать любые срезы: социодемографические, гендерные, вкусовые... В системе зарыто колоссальное количество ответов на эти и другие незаданные вопросы.
14.10.2009 Михаил Эпштейн
(филолог,
философ, профессор теории культуры университета Эмори (Атланта, США),
руководитель Центра творческого развития русского языка):
Из разноязычного Интернета вырисовывается очень показательная картина. Например, в Рунете имя Шекспира употребляется гораздо чаще, чем Пушкина или Достоевского в аглоязычном Интернете. Но если посмотреть на популярность Пушкина внутри русской культуры и Шекспира внутри английской культуры, Пушкин окажется выше – он упоминается на каждой 38-й странице Рунета, а Шекспир – на каждой 216-й странице Ангнета, что статистически подтверждает наш литературоцентризм.
Михаил Эпштейн:
Известно, что в русском языке предлог «в» – самое частое слово (встречается 1 раз на каждые 23 слова): в английском это определенный артикль the (каждое из 16 слов). Таким образом, достаточно взять частоту употребления этих слов, умножить на 23 или на 16 – и можно получить приблизительный объем Рунета и Ангнета. Получается, что англоязычный Интернет по объему слов примерно в 50 раз больше, чем Рунет.
Михаил Эпштейн:
Я беседовал с людьми из Google, из Силиконовой долины, они говорят, что цифры не совсем надежны. Кроме того, время от времени показатели меняются. Если бы удалось наладить точный сбор сетевой статистики, мы приобрели бы неоценимые социологические данные. Например, как соотносятся в английском и русском языках такие понятия, как man и woman, «мужчина» и «женщина»? Цифры сразу позволили бы оценить сравнительные масштабы феминизма.
Михаил Эпштейн:
Судя по Google, Россия сейчас занимает 13-е место среди держав, интересующих англоязычный мир. Она идет после Мексики, Кореи, Бразилии, Израиля, чуть выше, чем Иран, Индонезия и Турция. Я ориентируюсь на количество «гугликов» – сколь часто, по данным Гугла, слово «Россия» употребляется в англоязычном Инете. Кстати, каждый из нас может поинтересоваться, сколько у него гугликов.
Михаил Эпштейн:
Статистика слов по их частоте употребления в Инете – серьезный ориентир в оценке общественной важности тех или иных явлений. Например, кто главный философ в сознании Запада и России? Судя по данным Google, все еще Маркс, причем на Западе тоже. Потом Энгельс. И лишь затем идут Кант, Сократ, Платон, Аристотель, Ницше (в таком порядке).
Михаил Эпштейн:
Интернет позволяет понять, что значит, например, дуб для немецкого языка и что – для русского. Что важнее для русского менталитета – дуб или береза, то есть женственное (белое, кружевное) или мужеское (кряжистое, могучее). Не воспользоваться новыми сетевыми возможностями было бы грандиозным упущением лингвистики. Инет позволяет определить вес слова в ментальности народа и тем самым точнее охарактеризовать саму ментальность.
Михаил Эпштейн:
В ряде стран проводятся акции «Слово года». В США этим занимается Американское диалектное общество, в которое входят крупнейшие лингвисты, журналисты, педагоги. С 2007 года я провожу такой конкурс в Международной ассоциации преподавателей русского языка и литературы. Словами 2008 года, стали «кризис», «коллайдер» и «великодержавность». В 2007 году лидировали «гламур»,
«нано», «блог/блогер». В 2009 году на статус «Слово года» претендуют: «новые бедные», «обвал», «передел»... Выбор знаковых слов – это рефлексия общества над тем, что составляет основной нерв минувшего года. Поэтому «Слово года» – акция, имеющая важное общественно-языковое значение.
|
kmp |