Здесь находятся завершившиеся обсуждения. Просьба не вносить изменений.

Статья об одном из крупнейших текстовых корпусов, оказавших влияние на многие корпусы, создававшиеся впоследствии. Полностью переведена мной с английского с добавлением оригинального материала. Прошла рецензирование. -- Alexchuvak 11:30, 12 апреля 2016 (UTC)[ответить]

За править

(+) За. Пока, вроде, добротных или хороших статей о корпусах в рувики не было. -- Andrew Krizhanovsky 03:54, 29 апреля 2016 (UTC)[ответить]

Против править

Комментарии править

  • Алексей, Вы пишите выше, что "BNC оказал влияние на многие корпусы, создававшиеся впоследствии". На какие корпусы (или корпуса?) он оказал влияние? Не вижу об этом в тексте :( Добавите?.. Со ссылками на ВП:АИ. -- Andrew Krizhanovsky 12:19, 13 апреля 2016 (UTC)[ответить]
  • ✔ Сделано. Об этом есть в разделе Признание. Добавил туда еще одну ссылку и примеры корпусов для убедительности.
  • Отлично, спасибо за эту правку diff.
  1. Вы пишите про "Американский, Чешский и Польский национальные корпуса"... Неужели про них не статей в Английской Википедии? Попробуйте викифицировать, пожалуйста.
  2. У нас с Вами уговор - пользоваться sfn вместо ref'ов.
  3. Забыли указать автора этого большого обзора корпусов: "Well-known and influential corpora: A survey". -- Andrew Krizhanovsky 04:54, 14 апреля 2016 (UTC)[ответить]

Схема править

BNC structure.
Структура BNC
  • В целом схема мне нравится, но есть небольшие "но". Три замечания по переводу рисунка на русский языке:
  1. Periodicals - это не "письменные материалы". Это же (левая часть схемы) и так "письменный корпус"! И что тогда означает "письменные материалы" в "письменном корпусе"? А как называются не письменные материалы в письменном корпусе?! Предложите иной перевод, пожалуйста.
  2. Published и unpublished - зачем переводите настоящим временем? Лучше "Опубликованное" и "Неопубликованное".

Коллеги, видите ли ещё какие-либо несуразности в переводе?.. -- Andrew Krizhanovsky 14:31, 17 апреля 2016 (UTC)[ответить]

Перевод править

  • Демографическая часть содержит транскрипцию спонтанных разговоров в реальных условиях, в которых участвовали волонтеры... ... . Извините, как можно "участвовать в условиях"? -- Andrew Krizhanovsky 16:32, 17 апреля 2016 (UTC)[ответить]
Paragraph English Russian
Title Permission issues Проблемы доступа
1 Intellectual property rights (IPR) owners were sought for their agreement with the standard licence, especially willingness to incorporate their materials in the corpus without any fees. Обладатели прав на интеллектуальную собственность особенно охотно включали в корпус свои материалы без каких-либо денежных сборов, что было продиктовано стандартной лицензией на включение материала в корпус.
2 This arrangement may have been facilitated by the originality of the concept and the prominence associated with the project.[6] Такое положение дел было одним из факторов, способствующих формированию представления об оригинальности концепции корпуса и его уникальности[6].

Не понимаю логику в переведённом тексте (первое предложение). Почему люди "охотно" отказываются от денег? Авторы прочитали "стандартную лицензию" и стали фанатиками лицензии "Public domain"? Может, в переводе есть ошибка? -- Andrew Krizhanovsky 16:13, 25 апреля 2016 (UTC)[ответить]

от पाणिनि править

  • Я не уверен в необходимости наличия раздела "Академические исследования". За время существования корпуса он наверняка использовался в сотнях статей, так что это потенциально безразмерный раздел. पाणिनि 09:22, 23 апреля 2016 (UTC)[ответить]

от Zanka править

Ну вот, пришла я и всё испрортила. --Zanka 17:10, 3 июня 2016 (UTC)[ответить]

  • "английский конца XX в." - НЕБУМАГА.
  • Введение вообще маловато, для заглавной надо ещё пару предложений.
  • Есть некоторое несоответствие между тем, что используется карточка сайта, а в тексте введения вообще нет ничего о том что это имеет какое-то отношение к Интернету. (Кстати, как раз эта добавка может увеличить введение до необходимых размеров)
  • На пять страниц текста одна страница содержания, не слишком ли? Не вижу смысла делать заголовок над каждым абзацем.
  • "В рамках проекта по созданию BNC сотрудничали три издателя (Издательство Оксфордского университета в качестве ведущего соавтора, а также Longman и W. & R. Chambers[en]), два университета (Оксфордский и Ланкастерский ) и Британская библиотека[2]." - это даже не мастер Йода, это вообще не читаемо.
  • Почему предпосылки расположены ниже чем само создание тоже неясно.
  • В карточке написано, что 1994 год - начало работы, а в истории - что завершение, а начало в 1991 году. Я понимаю, что в карточке скорее всего начало работы сайта, но нельзя настолько недоговаривать.
  • "В представлении специалистов по компьютерной лингвистике BNC должен был представлять собой корпус современного на момент составления, встречающегося в реальных условиях языка в устной или письменной форме." - 1. при чём здесь специалисты по компьютерной лингвистике? 2. либо "встречающегося в реальных условиях" нужно окружать запятыми с двух сторон, либо перестраивать предложение.
  • Вообще, содержание раздела Предпосылки не имеет ничего общего со значением этого слова, по крайней мере для меня. Предпосылки - это то, что натолкнуло на мысль о создании, какие-то договорённости, встречи, пожелания. У вас же конкретные решения, чего стоит "В результате, BNC был составлен в форме, удобной для обработки на компьютере" - это не предпосылки никак!
  • Я предполагаю, что раздел история должен содержать информацию о том как образовался проект, кто в нём был заинтересован, кто принимал участие в создании. Вопрос финансирования тоже можно затронуть, если больше негде (для избранной не помешал бы отдельный раздел), но не таким образом как это сделано сейчас.
  • Вообще, для такого типа статей в последнее время исторический очерк помещают ближе к концу.
  • "BNC является одноязычным[en] корпусом, так как он содержит ..." - 1. красная ссылка ведёт на "моноязычный", просто прилагательное. Тут что-то нужно поправлять. 2. конструкцию "так как" можно убрать, она не несёт смысла.
  • В следующем предложении от "так как" тоже можно отказаться. В обоих случаях я бы при этом запятую заменила на тире.
  • "С самого начала те, кто участвовал в сборе письменных данных, стремились сделать BNC сбалансированным корпусом и, следовательно, искали и включали данные из различных источников[3]." - наивное предложение, ну думаю что оно уместо в этой статье, по крайней мере в этом месте статьи.
  • "подготовленных входе особых встреч или мероприятий." - пробел пропущен.
  • Последние два "абзаца" разговорного корпуса без АИ. В последнем абзаце при этом дана внешняя ссылка внутри статьи.
  • "путем введения в использование дополнительного программного обеспечивания для замещения ручной работы" - я, конечно, "сам дурак", но что такое "програмное обеспечивание"?
  • Вообще, создалось впечатление, что этой системе разметки уделено много места. Если вся система разрабатывалась для програмного обеспечивания этого корпуса или корпус подтолкнул систему к дальнейшему развитию и модификациям, то тогда всё уместно, только надо корректно это обозначить. Если же система не при чём, то проход по модификациям выглядит нарушающим ВЕС.
  • Также создалось неприятное впечатление от того, что вначале указаны цифровые показатели (96-97%), а потом - нет, и непонятно чего удалось достичь.
  • "Можно получить оба этих подкорпуса, заказав их на сайте BNC" - это вообще можно убрать из статьи. В крайнем случае, поместить в особенности доступа.
  • Непонятен смысл подкорпусов. На что они ориентированы. Есть ощущение, что один из них включает детский язык. Если это так, то наверное есть ограничение возрастной группы, выбор литературы и периодики. Тогда же возникает вопрос в уместности научной литературы. Для чего нужен второй подкорпус - я не поняла.
  • " В ходе работ по проекту BNC Sampler улучшался с ростом опыта и знаний о разметке. В итоге был создан тот BNC Sampler, который мы знаем сегодня[13]." - да мы никакой не знаем сегодня, пока ещё.
  • "Корпус имеет разметку в соответствии с рекомендациями консорциума Text Encoding Initiative[en] (TEI) и включает полную лингвистическую аннотацую и контекстную информацию[14]." - что мешает поместить это в раздел разметка? Зачем создавать для одного предложения отдельный раздел?
  • Особенности доступа заставляют меня усомниться в том, что наверху вообще уместна карточка сайта. Это не сайт и значимость его не будет определяться по ВЕБ.
  • "BNC стал первым корпусом подобного размера, доступный широкой аудитории." - согласование.

Итог править

Номинатор в Википедии не появлялся с 28 апреля, работа по замечаниям не ведётся. Статус не присвоен, после доработки возможно повторное выдвижение. --Deinocheirus (обс) 13:18, 20 июня 2016 (UTC)[ответить]