Collocation Sampler
Type in your word:
Select a significance score to be calculated:
Mutual Information
T-score
To get collocations, press this button:
Note that output from this demo facility will be restricted to 100 collocates. These
will be the statistically most significant ones according to the score you have selected.
Collocate | Corpus Freq | Joint Freq | Significance |
the | 5.540490 | ||
erm | 4.294184 | ||
million | 4.182154 | ||
christi | 4.122786 | ||
spoken | 4.104865 | ||
er | 3.798765 | ||
a | 3.724491 | ||
habeas | 3.463933 | ||
word | 3.199393 | ||
mm | 3.102023 | ||
software | 2.980231 | ||
based | 2.874020 |
Рис. 4. Интерфейс для вычисления коэффициента совместной встречаемости и образец выдачи в корпусе COBUILD
Приложение 2
Метаданные текстов в «Национальном корпусе
русского языка» (НКРЯ)
Метаописание в НКРЯ состоит из двух блоков, первый из которых включает следующие признаки:
1) Автор текста: имя, пол, дата рождения (или примерный возраст);
2) Название текста;
3) Время создания текста (точно или приблизительно);
4) Объем текста: для художественных произведений принято, что обычная длина рассказа — менее 5 тыс. слов; обычная длина повести — от 5 до 15 тыс. слов; обычная длина романа — более 15 тыс. слов.
Второй блок содержит параметры метаописания трех основных массивов текстов корпуса: а) художественных текстов; б) нехудо-жественных текстов; в) драматургии.
Для художественных текстов предлагаются следующие параметры:
1) Жанр текста: нежанровая проза, автобиографическая проза, детектив, детская литература, историческая проза, криминальная литература, приключения, фантастика, юмор и сатира;
2) Тип текста: автобиографическая проза, ассоциативная проза, очерк, литературное письмо, повесть, пьеса, рассказ, роман, сказка, эссе;
3) Хронотоп текста (приблизительное указание на место и время описываемых в тексте событий; включается также помета «хронотоп не определен»). Реально предлагается следующее: древний Восток; Россия XVII в.; Россия XVIII в.; Россия XIX в.; Россия/СССР: советский период в целом; Россия, советский период – Германия 1920–1940-е; Россия/СССР – Европа 1960–1980-е; Россия/СССР: перестройка; Россия/СССР: советский и постсоветский период; Америка: современная жизнь; Америка: 1960–1980-е; Израиль: современная жизнь; Средняя Азия: современная жизнь; ирреальный мир и некоторые другие.
Для нехудожественных текстов установлены следующие параметры:
1) Тип текста: автобиография, дневник, договор, документ, закон, заметка, заявление, инструкция, информационное сообщение, кодекс, комментарий, объявление, отзыв, отчет, очерк, письмо, проповедь, резюме, рецензия, рецепт, сочинение, справочник, статья, учебник, характеристика, хроника, эссе, юридический документ (включается также помета «тип не определен») и пр. (всего 62 параметра).
2) Тематика текста: (открытый список в 5 подмножествах): бизнес, коммерция, экономика, финансы; война и вооруженные конфликты; дом; здоровье и медицина; досуг; искусство; криминал; наука (по разделам и отраслям); политика и общественная жизнь; право; производство; сельское хозяйство; спорт; природа; частная жизнь и т.п.
Помимо названной, в «Национальном корпусе» существует еще служебная или «имплицитная» метаразметка, которая не выносится на открытый доступ для широкого пользователя. К этой метаразметке относятся:
1) «текст-стиль», при этом выделяются академический, научно-популярный, официально-деловой, нейтральный, сниженный, сниженный с элементами грубого просторечия и жаргона, архаизованный, индивидуально-авторский, диалектный и пр. (всего 21);
2) аудитория-возраст;
3) аудитория-уровень образования;
4) аудитория-размер.