Лингвистический корпус иврита
Ошибка скрипта: Модуля «Unsubst» не существует.
Ошибка Lua в package.lua на строке 80: module 'Module:Yesno' not found.Ошибка скрипта: Модуля «Transclude» не существует.Шаблон:Карточка/название | |
---|---|
Шаблон:Карточка/оригинал названия | |
Шаблон:Wikidata | |
Шаблон:Wikidata |
Шаблон:Сортировка: по изображениямШаблон:ИТ:Общие проверки
Лингвисти́ческий ко́рпус иври́та[1] — бесплатный интернет-ресурс, содержащий собрание текстов на иврите для лингвистического исследования языка. Корпус был создан Национальным Ближневосточным Языковым Ресурсным центром Университета Бригама Янга, США[2].
Составители[править]
Над корпусом работают специалисты NMELRC в сотрудничестве с Национальной Ассоциацией Профессоров Иврита.[3] Проект был создан Shmuel Bolozky после знакомства со сходным корпусом арабского языка arabiCorpus доктора Dilworth Parkinson[4].
Состав и структура[править]
Корпус включает в себя различные типы письменных текстов: художественная литература, научные и религиозные труды, конституционные и исторические документы, законы, энциклопедийные статьи, учебная литература, повседневная печатная продукция (газеты, таблоиды, журналы), коллекция неофициальных обсуждений (форумы, блоги), новостные статьи израильских СМИ, пословицы. В корпус также входят записи устных текстов: публичные речи, цитаты, высказывания известных личностей и частные беседы; собрание субтитров к 59 фильмам.
Корпус содержит 23 специфических подкорпуса[5], которые разделены на 5 групп. Поиск можно осуществлять как и отдельно по подкорпусу, так и по всей группе.
Название группы | Подкорпуса, входящие в группу | Количество слов |
---|---|---|
All News | Arutz 7: 01-06, Beginning Newspapers, ErevErev[6]: 03-09, Haaretz: 90-91, Haaretz: 08, Maariv: 04-08, Raanana, TheMarker[7]: 02, Ynet: 00-09 | 52,691,299 |
All Literature | Tanach, Mishnah, Early Fiction, Modern Fiction-Orig: 05-10, Modern Fiction-Tran: 05-10 | 7,084,703 |
All Coloquial | Movies, Spoken, Tapuz Forums | 1,563,677 |
All Specialized | Journals, Knesset: 03-05 | 21,942,198 |
All Wiki Pages | Wikibooks,Wikinews, Wikipedia, Wikiquote, Wikisource | 73,142,443 |
Объем корпуса[править]
На данный момент корпус содержит более 150 млн слов.
Доступ[править]
Для того, чтобы воспользоваться возможностями корпуса, необходимо пройти бесплатную регистрацию.
Примечания[править]
- ↑ hebrewCorpus [1]Шаблон:Ref-lang
- ↑ National Middle East Language Resource Center (NMELRC) Brigham Young University, USA [2]Шаблон:Ref-lang
- ↑ National Association of Professors of Hebrew, University of Wisconsin, USA [3]Шаблон:Ref-lang
- ↑ Creating hebrewCorpus: A Vast Online Resource for Modern Hebrew
- ↑ Подробное описание всех подкорпусов [4]Шаблон:Ref-lang
- ↑ Информационно-новостной портал ErevErev [5]Шаблон:Ref-he
- ↑ Информационный портал TheMarker [6]Шаблон:Ref-he
Ссылки[править]
- Лингвистический корпус иврита [7]Шаблон:Ref-lang
- Национальный Ближневосточный Языковой Ресурсный центр [8]Шаблон:Ref-lang
- Университет Бригама Янга [9]Шаблон:Ref-lang
- Национальная Ассоциация Профессоров Иврита [10]Шаблон:Ref-lang
Шаблон:Сортировка: изолированные статьиОшибка скрипта: Модуля «Unsubst» не существует.
This article "Лингвистический корпус иврита" is from Wikipedia. The list of its authors can be seen in its historical and/or the page Edithistory:Лингвистический корпус иврита. Articles copied from Draft Namespace on Wikipedia could be seen on the Draft Namespace of Wikipedia and not main one.