Зависимость кумулятивных длин слов от их ранга в поэтическом тексте

Автор:	uri
Автор оригинала:	Климов Юрий Николаевич

ЗАВИСИМОСТЬ КУМУЛЯТИВНЫХ ДЛИН СЛОВ ОТ ИХ РАНГА В ПОЭТИЧЕСКОМ ТЕКСТЕ
Ю.Н. Климов

Исследованию закономерностей распределения длин словоформ статистическими методами уделяется пристальное внимание в отечественной и в зарубежной лингвистике [1-6]. Длина слова обычно измеряется в буквах, слогах, фонемах или морфемах. Она является важным квантитативно-типологическим критерием, который прогнозирует структурные черты языка и индивидуальные особенности текста [7].
Для теории и практики при работе с массивами текстов важным является проблема аналитического описания распределения слов по длине и определения связи длин слов с другими структурными характеристиками текста или словаря (частотность, словообразовательная активность, возраст слов и т.п.). Измерение длины слова в буквах легко можно автоматизировать. А на этой основе проводить вероятностный прогноз ряда других, связанных с длиной, характеристик.
В большинстве указанных исследований применялся частотный закон Ципфа, вычислялась средняя длина слова и аппроксимировалась зависимость логарифма средней длины слова от логарифма частоты с построением соответствующих графиков в билогарифмическом масштабе с применением линейной или степенной зависимостей или полинома третьей степени [1,6,8].
Следует обратить внимание на закон Менцерата, который является фундаментальным в области организации человеческого языка. Феномен этого закона состоит в утверждении обратной зависимости между длиной слова в слогах и длиной слогов в буквах [12]. Применение этого закона распространили на закономерности, связанные с длиной слов в морфемах, словосочетаниях, предложениях и т.п., а также на семиотические, биологические и другие явления.
Формулировка закона Менцерата позднее была изменена и трактовалась следующим образом: чем длиннее некоторый конструкт (целое), тем короче должны быть его составляющие (части) [13-14].
Однако этот закон не был теоретически обоснован в лингвистике и в другой соответствующей области знания. Поэтому были осуществлены интересные теоретические обоснования закона Менцерата [13-17].
В настоящее время имеется некоторое количество исследований по соотношению длин слов и морфем в турецком [14], немецком [19], и русском языках [19-20].
Однако эта менцератовская закономерность не была исследована экспериментально для всего текста.
Как отмечено ранее, целостное здание лингвистической теории, включая квантитативную теорию длин синтаксических и суперсинтаксических единиц языка без объяснения закономерностей формирования морфем и слов, в принципе не может быть построена. Поэтому необходимо теоретически обосновать возможный онтологический механизм возникновения закона Менцерата от морфем до слов. Для чего необходимо собрать и проанализировать обширный, многоаспектный, системно охарактеризованный набор данных по морфемным структурам слов в различных языках. Им была предложена обратная зависимость длин аффиксов и величин порядковых номеров их расположения в пределах слова: y = a*ln(x+c) + b, где y – средняя длина аффиксов в позиции x в пределах последовательности аффиксов в словоформе; a – коэффициент пропорциональности; b - средняя длина аффиксов в начальной (-3-ей) позиции в пределах слов в анализируемом словаре; c – коэффициент конвертации отрицательно-положительной шкалы в положительную [20].
Так, на примере первой главы «Евгения Онегина» А.С. Пушкина применялась специфическая формула для определения средней длины слова L = a•F-b+1, где L – средняя длина слова, F – частота, a, b – коэффициенты, 1 – асимптота функции, а затем строились графики в билогарифмическом масштабе с применением линейной или степенной зависимостей [8].
Следует отметить, что применение простых алгебраических зависимостей для выявления распределения логарифмов длин слов от логарифмов их частоты не во всех случаях давали высокие коэффициенты множественной корреляции (R2). График экспериментальных данных представлял S-образную кривую, которую невозможно описать с достаточной точностью линейной и степенной зависимостями. Эти зависимости не учитывали начальные и конечные длины слов в распределении.
Методический прием выявления закономерностей длин слов, по нашему мнению, состоит в применении их ранжирования, начиная с наибольшей величины длин слов, приведения их к кумуляте с последующей аппроксимацией линейной, степенной зависимостями и полиномами второй и третьей степеней, которые описываются высокими статистическими показателями. Это было нами доказано на примере документальных потока творческой активности русских писателей и поэтов [9], а ранее – на потоках научно-технической информации [10].
Целью исследования явилось: получение экспериментальных данных по зависимости кумулятивных длин слов от их рангов в упорядоченной последовательности их длин в романе в стихах А.С. Пушкина "Евгений Онегин", а также возможность уточнения места коэффициента с в логарифмической зависимости и применения уточненной логарифмической ("идеальной") зависимости по следующим позициям:
• количество слов (1);
• частота слов (2);
• кумулятивное количество слов (3);
• кумулятивная частота слов (4);
• зависимость количества слов от частоты (5);
• зависимость логарифма длины слов, начиная с наибольшей величины (6);
• зависимость логарифма количества слов от логарифма длины слов (7);
• зависимость логарифма частоты слов от логарифма длины слов (8);
• зависимость логарифма кумулятивного количества слов от логарифма длины слов (9);
• зависимость логарифма кумулятивного количества слов от логарифма кумулятивной длины слов (10) по линейной, степенной, логарифмической, экспоненциальной зависимостям, полиномам второй и третьей степеней.
Общие статистические данные по ЕО гл.1-8 представлены в таблице.
Таблица
Общие статистические данные по ЕО гл.1-8
Номер позиции по порядку Длина слова в буквах Кол-во слов Общая частота длин слов Кумуля- тивное
кол-во
длин
слов Кумуля-тивная частота длин слов ln длины cлова ln
кол-ва
длин слов ln
частоты длин
слов ln кумуля-
тивного
кол-ва
длин
слов ln кумуля-
тивной
частоты
длин
слов
1 19 6 7 6 7 2,944 1,792 1,945 1,792 1,946
2 18 8 8 14 15 2,890 2,079 2,079 2,639 2,708
3 17 13 20 27 35 2,833 2,565 2,995 3,296 3,555
4 16 31 61 58 96 2,773 3,434 4,110 4,060 4,564
5 15 80 98 138 194 2,708 4,382 4,585 4,927 5,268
6 14 164 191 302 385 2,639 5,100 5,252 5,710 5,953
7 13 234 310 536 695 2,565 5,455 5,736 6,284 6,544
8 12 400 504 936 1199 2,485 5,991 6,222 6,842 7,089
9 11 641 826 1577 2025 2,398 6,463 6,716 7,363 7,613
10 10 912 1125 2489 3150 2,303 6,816 7,025 7,820 8,055
11 9 1344 1760 3833 4910 2,197 7,203 7,473 8,251 8,499
12 8 1934 2842 5767 7752 2,079 7,567 7,952 8,660 8,956
13 7 2311 4008 8078 11760 1,946 7,745 8,296 8,997 9,372
14 6 2304 4724 10382 16484 1,792 7,742 8,460 9,248 9,710
15 5 1866 5010 12248 21494 1,609 7,532 8,519 9,413 9,976
16 4 963 3417 13211 24911 1,386 6,870 8,136 9,489 10,12
17 3 359 4110 13570 29021 1,099 5,883 8,321 9,516 10,28
18 2 90 3493 13660 32514 0,693 4,500 8,158 9,522 10,39
19 1 38 4283 13698 36797 0 3,638 8,362 9,525 10,51

Длина слов в ЕО, т.е. количество букв в них, колебались от 19 до одной. При этом количество слов составило от шести до 1866. Общая частота длин слов составила от семи до 5010, кумулятивное количество длин слов – от шести до 12248, кумулятивная частота длин слов – от семи до 21494. При этом десятичные логарифмы длин слов уменьшались по отношению к номеру позиции и длине слова - от 2,944 до 1,609, а, соответственно, логарифмы количества длин слов и частоты длин слов возрастали от 1,792 до 7,532 и от 1,945 до 8,519. Эта тенденция сохранилась для логарифмов кумулятивного количества длин слов и кумулятивной их частоты: 1,792 и 9,412, 1,946 и 9,976.
Рассмотрим применение простых алгебраических зависимостей к исследованным характеристикам длин слов. Следует отметить, что величины коэффициентов в моделях (1) и (5) совпадают.
Так, величина а в линейной зависимости (у=аx+b) для перечисленных свойств длин слов принимала следующие значения: 63,947(1), 306,19(2), 950,05(3), 2040,30(4), 63,947(5), -0,1338(6), 0,2051(7), 0,3723(8), 0,4386(9), 0,4748(10).
При этом величина b изменялась следующим образом: 81,474(1), -1125,20(2), -4209,50(3), -10222,00(4), 81,474(5), 3,4089(6), 3,3574(7), 2,6112(8), 2,6324(9), 2,6791(10) с коэффициентом множественной корреляции (R2) от 0,1886(1) до 0,9426(10).
Степенная зависимость (у=ахb) аппроксимировала экспериментальные данные следующим образом по величине а: 4,9231(1), 2,0748(2), 1,6683(3), 1,6343(4), 4,2931(5), 1,9216 (7), 1,7771(8), 1,8210(9), 1,9370(10).
Относительная скорость изменения характеристик длин слов (величина b) принимала следующие значения: 1,8422(1), 2,7067(2), 3,1426(3), 3,3497((4), 1,8422(5), 0,4592(7), 0,5722(8), 0,6064(9), 0,6041(10) с коэффициентом множественной корреляции (R2) от 0,5662(1) до 0,9843(9).
Применение экспоненциальной зависимости (у=аеbx) показало, что по величине а исследованные характеристики имели следующие значения: 28,716(1), 13,616(2), 13,907(3), 14,572(4), 28,716(5), 3,0148(7), 2,7806(8), 0,2901(9), 3,0754(10).
При этом относительная экспоненциальная скорость изменения характеристик длин слов (величина b) принимала следующие значения: 0,2037(1), 0,3723(2), 0,4386(3), 0,4744(4), 0,2037(5), 0,050(7), 0,0737(8), 0,0783(9), 0,0789(10) с коэффициентом множественной корреляции (R2) от 0,3408(1) до 0,9120(3).
Исследованные характеристики длин слов по логарифмической зависимости (у=аlnx+b) имели следующие значения для величины а: 517,02(1), 1866,20(2), 5505,80(3), 11309,00(4), 517,02(5), -0,7841(6), 1,8422(7), 2,7067(8), 3,1426(9), 3,3497(10).
В этом случае величина b принимала следующие значения: -349,54(1), -1927,30(2), -6108,9(3), -13234,0(4), -349,54(5), 3,6944(6), 1,59399(7), 0,7299(8), 0,5118(9), 0,4912(11) с коэффициентом множественной корреляции (R2) от 0,2598(1) до 0,9639(12).
Аппроксимирование экспериментальных данных по полиному второй степени (у=ах2+bx+c) по трем параметрам выявило следующее по величине ах2: -15,566(1), 4,157(2), 51,86(3), 188,01(4), -15,566(5), -0,0094(6), -0,0551(7), -0,0281(8), -0,0278(9), -0,0239(10).
Для величины bx полученные данные имели следующие значения: 395,26(1), 223,05(2), -87,158(3), -1720,00(4), 395,26(5), 0,0544(6), 1,3063(7), 0,9335(8), 0,9946(9), 0,9527(10).
Величина с свободного члена полинома второй степени представлена следующими параметрами: 1078,10(1), -834,18(2), -579,22(3), 2939,10(4), -1078,10(5), 2,75(6), -0,4969(7), 0,6469(8), 0,6865(9), 1,0083(10) с коэффициентом множественной корреляции (R2) от 0,4898 (1) до 0,9994 (10).
Применение простой алгебраической зависимости в виде полинома третьей степени (у= ах3+ах2+bx+c) показало, что величина а в ах3 принимала в основном отрицательные значения: -3,7346(1), -4,3541(2), -7,4153(3), 0,7832(4), -3,7346(5), -0,0009(6), -0,0039(7), -0,0005(8), -0,0003(9), 0,0001(10).
Величина а в ах2 принимала положительные и отрицательные значения: 95,477(1), 134,78(2), 274,32(3), 164,52(4), 95,472(5), 0,0173(6), 0,0608(7), -0,0134(8), -0,0173(9), -0,0284(10).
В этом случае величина b в bх имела также положительные и отрицательные значения: -524,20(1), -848,93(2), -1912,80(3), -1527,10(4), -524,20(5), -0,1647(6), -0,3551(7), 0,8133(8), 0,9085(9), 0,9895(10),
Величина свободного члена с в этом алгебраическом уравнении имела следующие значения: 647,27(1), 1177,40(2), 2846,60(3), 2577,30(4), 647,27(5), 3,1613(6), 1,2881(7), 0,8725(8), 0,9085(9), 0,9374(10) с коэффициентом множественной корреляции (R2) от 0,8362 (1) до 0,9995 (9).
Анализируя аппроксимации длины слов в зависимости от перечисленных позиций, следует отметить, что по коэффициенту множественной корреляции (R2) можно отобрать наиболее приемлемые алгебраические зависимости, характерные для каждой позиции:
для количества слов (1) и для количества слов от частоты (5) – полином третьей степени (R2 = 0,8373),
для частоты слов (2) – степенная зависимость (R2 = 0,9515) и полином третьей степени (R2 = 0,9173),
для кумулятивной числа слов (3) – степенная зависимость (R2 = 0,9639), экспоненциальная зависимость (R2 = 0,9120), полином второй степени (R2 = 0,9467) и полином третьей степени (R2 = 0,9757),
для кумулятивной частоты слов (4) – степенная зависимость (R2 = 0,9661), экспоненциальная зависимость (R2 = 0,9426), полином второй степени (R2 = 0,9915) и полином третьей степени (R2 = 0,9916),
для логарифма длины слов от номера позиции (6) – полином третьей степени (R2 = 0,9724),
для логарифма количества слов от логарифма длины слов (7) – полином второй степени (R2 = 0,9254) и полином третьей степени (R2 = 0,9905),
для логарифма частоты слов от логарифма длины слов (8) – степенная зависимость (R2 = 0,9594), логарифмическая зависимость (R2 = 0,9515), полином второй степени (R2 = 0,9925) и полином третьей степени (R2 = 0,9933),
для логарифма кумулятивного количества слов от логарифма длины слов (9) – линейная зависимость (R2 = 0,9120), степенная зависимость (R2 = 0,9843), логарифмическая зависимость (R2 = 0,9639), полином второй степени (R2 = 0,9992) и полином третьей степени (R2 = 0,9995),
для логарифма кумулятивной частоты длин слов от кумулятивного количества слов (10) – линейная зависимость (R2 = 0,9426), степенная зависимость (R2 = 0,9915), логарифмическая зависимость (R2 = 0,9661), полином второй степени (R2 = 0,9994) и полином третьей степени (R2 = 0,9994),
Таким образом, наиболее объективной оценкой длин слов является зависимость логарифма кумулятивного количества слов от логарифма кумулятивной частоты слов (9) с высокими показателями коэффициентов множественной корреляции – линейная зависимость (R2 = 0,9120), степенная зависимость (R2 = 0,9843), логарифмическая зависимость (R2 = 0,9629), полином второй степени (R2 = 0,9992) и полином третьей степени (R2 = 0,9995).
Сравнительный анализ длин слов от их частоты показал, что вычисленная нами средняя величина длины слова в зависимости от частоты составляет 2,6324 с R2 = 0,9120 по линейной зависимости у = 2,6324+0,4386х, что отличается от литературных данных на 1,01% (2,6595 c R2 = 0,96) [8].
Проведенный корреляционный анализ зависимости длин слов от других характеристик показал наличие отрицательной и положительной корреляции. Так, отрицательная корреляция с наиболее высокими характеристиками относилась к зависимостям: частоты слов от длины, от кумулятивного количества слов от длины, кумулятивной частоты длин слов от длины, логарифма частоты слов от длины, логарифма кумулятивной частоты слов от длины -0,908 (длина слов от частоты) до -0,971 (длина слов от логарифма кумулятивной частоты).
Положительная корреляция с высокими характеристиками относилась к зависимостям: длины слова от логарифма их длины, частоты слов от кумулятивного их количества, кумулятивного количества слов от кумулятивной их частоты, логарифма частоты слов от логарифма кумулятивного количества слов, логарифма частоты слов от логарифма кумулятивной частоты слов и логарифма кумулятивной частоты слов от логарифма кумулятивного количества слов - от 0,933 (длина слова от логарифма длины слова) до 0,998 (логарифм кумулятивной частоты слов от логарифма кумулятивного количества слов).
Полученная уточненная теоретическая ("идеальная") логарифмическая зависимость, аппроксимирующая зависимость логарифма кумулятивных длин слов от логарифма их рангов для ЕО имела следующий вид: у = 0,8237lnx + 3,0649 c c= - 0,7 (R2=1,0000), а соответствующая теоретическая логарифмическая зависимость – у = 0,8237lnx + 3,7649 (R2=0,9965).
Применение логарифмической зависимости показало также высокие результаты по отрицательной и положительной корреляции, соответственно, для кумулятивного количества слов (-0,920), кумулятивной частоты слов (-0,960), длины слов (0,902) и логарифма длин слов (0,954).
Таким образом, предложена уточненная теоретическая ("идеальная") формула свойств логарифма кумулятивных длин слов от логарифмов ранга для лексического материала (текста): y = аln(x)+b±c, где y – средняя длина слова в позиции x в пределах последовательности длин слов; a – коэффициент пропорциональности; b - средняя длина слова в начальной позиции в пределах слов в анализируемом лексическом материале; c – коэффициент специфичности или преобразования предварительной теоретической логарифмической зависимости в уточненную теоретическую (идеальную) логарифмическую формулу, которая представлена "идеальным" коэффициентом b, откорректированная величиной с.
Выводы
1. Анализируя аппроксимации длины слов в зависимости от перечисленных позиций, следует отметить, что по коэффициенту множественной корреляции (R2) можно отобрать наиболее приемлемые алгебраические зависимости.
2. Наиболее объективной оценкой длин слов является зависимость логарифма кумулятивного количества слов от логарифма кумулятивной частоты слов (10) с высокими показателями коэффициентов множественной корреляции – линейная зависимость (R2 = 0,9120), степенная зависимость (R2 = 0,9843), логарифмическая зависимость (R2 = 0,9629), полином второй степени (R2 = 0,9992) и полином третьей степени (R2 = 0,9995).
3. Сравнительный анализ длин слов от их частоты показал, что вычисленная нами средняя величина длины слова в зависимости от частоты составляет 2,6324 с R2 = 0,9120 по линейной зависимости у = 2,6324+0,4386х, что отличается от литературных данных на 1,01% (2,6595 c R2 = 0,96) [8].
4. Проведенный корреляционный анализ зависимости длин слов от других характеристик показал наличие отрицательной и положительной корреляции. Отрицательная корреляция с наиболее высокими характеристиками относилась к зависимостям: частоты слов от длины, от кумулятивного количества слов от длины, кумулятивной частоты длин слов от длины, логарифма частоты слов от длины, логарифма кумулятивной частоты слов от длины -0,908 (длина слов от частоты) до -0,971 (длина слов от логарифма кумулятивной частоты). Положительная корреляция с высокими характеристиками - к следующим зависимостям: длины слова от логарифма их длины, частоты слов от кумулятивного их количества, кумулятивного количества слов от кумулятивной их частоты, логарифма частоты слов от логарифма кумулятивного количества слов, логарифма частоты слов от логарифма кумулятивной частоты слов и логарифма кумулятивной частоты слов от логарифма кумулятивного количества слов - от 0,933 (длина слова от логарифма длины слова) до 0,998 (логарифм кумулятивной частоты слов от логарифма кумулятивного количества слов).
5. Предложена уточненная теоретическая ("идеальная") логарифмическая формула для свойств логарифма кумулятивных длин слов от логарифмов ранга для лексического материала (текста): y = аln(x)+b±c, y – средняя длина слова в позиции x в пределах последовательности длин слов; a – коэффициент пропорциональности; b - средняя длина слова в начальной позиции в пределах слов в анализируемом лексическом материале; c – коэффициент специфичности предварительной теоретической логарифмической зависимости в уточненную ("идеальная") логарифмическую формулу, который дополняет значение коэффициента b в сторону его увеличения или уменьшения.
6. Полученная уточненная теоретическая ("идеальная") логарифмическая формула, аппроксимирующая зависимость логарифма кумулятивных длин слов от логарифма их рангов для ЕО, имела следующий вид: у = 0,8237lnx + 3,0649 c c = - 0,7 (R2=1,0000), а соответствующая теоретическая логарифмическая зависимость – у = 0,8237lnx + 3,7649 (R2=0,9965).
7. Применение этой формулы на основе логарифмической зависимости показало высокие результаты по отрицательной и положительной корреляции, соответственно, для кумулятивного количества слов (-0,920), кумулятивной частоты слов (-0,960), длины слов (0,902) и логарифма длин слов (0,954).
Список литературы
1. Тулдава Ю.А. Длина слова и распределение слов по длине в тексте и в словаре. – Учен. зап. ТГУ, вып. 736. Тарту.:1986. С. 150-166.
2. Grzybek Р. (2001). Zur lexikalischen Struktur von Sprichwörtern: In Flut von Texten – Vielfalt der Kulturen. Ascona 2001 zur Methodologie und Kulturspezifik der Phraseologie. Herausgeb. H. Burger, A.H. Buhofer, G. Greciaňo. Phraseologie und Paroemiologie; Bd. 14. Schneider Verlag, Hohengehren.
3. Grzybek Р. (2005). Häufigkeiten von Buchstaben / Graphemen / Phonemen: Konvergenzen des Rangierungsverhaltens. // Glottometrcs, 9, 2005. 62-73.
4. Antič G, Grzybek P, Kelih E. (2007). Zero-Syllable Words in Determining Word Length. P. Grzybek (ed): Contribution to the Science of Text and Language. Dordrecht: Springer, 2007, pp. 117-156.
5. Grzybek Р. (2005). A Study on Russian Graphemes: In: Язык. Личность. Текст: Сб. Ст. К 70-летию Т.М. Николаевой. / Ин-т славяноведения РАН; Отв. ред. В.Н. Топоров. – М.: Языки славянских культур, 2005. – 976 с. – (Studia philologia).
6. Jauhari M., Saxena A., Gautam J.N. (2007). Zipf's Law and Number of Hits on the World Wide Web. // Annals of Library and Information Studies. Vol. 54, 2007. pp. 81-84.
7. Алексеев П.М., Бектаев К.Б., Пиотровский Р.Г. Информационно-стилистические типологии текста. – В кн.: Типология как раздел языкознания. М.: 1976. С.11-12.
8. Grzybek P., Altmann G. Oscillation in the Frequency-Length Relationship. // Glottometrics, 5. 2002. pp. 97-107.
9. Климов Ю.Н. Закономерности, описывающие творческую активность в науке, литературе и искусстве. // Научно-техническая информация. Сер. 2. 1998. № 11. - С. 34-36, 98.
10. Калянова Т.М., Климов Ю.Н., Лазарева Р.П. и др. Изучение и прогнозирование роста документальных информационных потоков и эффективности научной информации в международной системе ядерной информации. // Вопросы атомной науки и техники. Сер. Информация, экономика и системы управления. 1987, вып. 2, c.29-33.
11. Laurence A. (2005). AntConc: Design and Development of Freeware Corpus Analysis Toolkit for the Technical Writing Classroom. // IEEE International Professional Conference Proceedings, pp. 729-737.
12. Menzerat P. Die Architektonik des deutsches Wortschatzes. Bonn.: 1954.
13. Altmann G., Schwibbe M.H. Das Menzeratische Gesetz in informationverarbeitenden Systemen. Mit Beitragen von Werner Kaumanns, Reihard Koenler und Yoahim Wilde. Hildesheim. 1989.
14. Hrebiček L. Text Levels, Language Constructs, Constituens and the Menzerat-Altmann Law. Trier. 1955.
15. Altmann G. Proligomena to Menzerath's Law. // Glottometrika. 1980. № 2. pp. 1-10
16. Köhler R. Das Menzeratische Gesetz als Resultat des Sprachsverarbeitungs Mechanismus. In: Das Menzeratische Gesetz in informationverarbeitenden Systemen. Hildesheim. 1989. pp.108-112.
17. Fenk A., Fenk-Oszlon G. Menzerath's Law and the Constant Flow of Linguistic Information. In: Köhler R., Rieger B.B. (eds.) Contributions to Quantitative Linguistics, Dordrecht (NL),1993. pp.11-32.
18. Gerlach R. Zur Űberprűfung des Menzeratischen Gesetzes im Bereich der Morphologie // Glottometrika. 1982. № 4. pp. 95-102
19. Polykarpov A.A. Menzerath's Law for Morphemic Structures of Words:A Hyphothesis for the Evolutionary Mechanism of its Arising and Testing // Abstracts of papers for Qualico-2000, Praga.
20. Polykarpov A.A. Explaining Basic Menzerathian Regulatory Dependence of Affixes' Length on the Ordinal Number of their Positions within Words. 2005. In: Grzybek P. (eds.): Word Lengths Studies and Related Issues. In print.
21. Polykarpov A. A. Chronological Morphemic and Word-Formational Dictionary of Russian: Some System Regularities for Morphemic Structures for Units. // Linguistische Arbeitsberichte. 2000. Bnd. 75. pp. 201-202.

Ключевые слова: кумулятивная длина слов, "Евгений Онегин", логарифмическая зависимость, частота слов, ранговое распределение, корреляционный анализ, "идеальная" логарифмическая зависимость, линейная зависимость, степенная зависимость, полином второй степени, полином третьей степени.

Читатели (1686)

Добавить отзыв

Зависимость кумулятивных длин слов от их ранга в поэтическом тексте

Литературоведение, литературная критика