?

Log in

No account? Create an account

Entries by category: наука

2016-01

В теории, теория и практика - это одно и то же, а на практике...

[English version: https://medium.com/@oleksandr_now/in-theory-theory-and-practice-are-the-same-in-practice-however-46fd663f8e7b ]

Во всем этом модном data science есть большая засада.

Подготовка датасетов звучит совсем не модно и не круто, и про нее мало пишут. Даже люди из индустрии, не говоря уже о академии. Более того, иногда в пейперах проскакивают вещи от которых у меня вообще волосы дыбом подымаются.

Что-то вроде "мы выкинули все что у нас не отпарсилось", а как насчет того, что "не парсится" - это всегда смещенная неслучайная выборка? Которая смещает остальной датасет тоже далеко не случайным образом?

Ладно, как оно смещает саму статистику - это дело хозяйское и на совести авторов, конечно. Но еще это от входа означает что результаты пейпера, а то и алгоритм в принципе, маловероятно что применим в продакшне.

Например, "мы можем парсить 98% слов из аудио правильно" это звучит замечательно, пока ты не узнаешь что в 2% входят например названия улиц или номера телефонов, потому что они не словарные (out of vocabulary)
И на реальной задаче эти 2% слов превращаются в "70% диалогов не получилось отпарсить".

Самих академиков тоже можно понять, им пейпер написать надо, а не пытаться обьять необьятное, конечно. Но вот эта пропасть между теорией и практикой создает очень искаженное впечатление, и последующий шок у людей, которые переходят от теории к применению этой самой теории.

Да и индустрия тоже не спешит это как-то закрывать, потому что из-за того самого искаженного впечатления оно ни разу не является бизнес-нишей, люди не готовы платить за решение этой проблемы, потому что ее вроде бы как и нет вовсе. Пока ты с ней сам не столкнешься.

И вот у меня есть хороший программистский бэкграунд, чтобы с этим справляться, но что советовать людям, у которых опыта меньше - как-то пока непонятно совсем. Есть идеи?

This entry was originally posted at http://wizzard.dreamwidth.org/482707.html. It has comment count unavailable comments. Please comment there using OpenID.

2016-01

ох, и в arXiv'e завелись вахтеры...

ох, и в arXiv'e завелись вахтеры...

Оригинал взят у don_beaver в "Тёмные энергетики" контратакуют и проигрывают
Идёт второй месяц после публикации нашей антигравитационной работы. Спасибо всем, кто участвовал в научной дискуссии и поддержал. А вот наши оппоненты не раз удивили меня с самых разных сторон.

Например, дфмн Сергей Попов обвинил меня в неэтичности: «Не может быть никакой научной дискуссии в ЖЖ и СМИ. И Горькавый поступил не этично с научной точки зрения, принеся все это в блоги. В случае с Горькавым возмущает именно его апелляция к "общественному мнению", а не к экспертам, который он просто сходу оскорбляет (почитайте интервью в Газете.ру)».
Попов обвинил меня в этом… в своём ЖЖ, где активно обсуждается научное содержание моей статьи. Странно это всё. Я донес свою точку зрения до научного сообщества самым общепринятым способом – опубликовав статью в реферируемом журнале MNRAS. И только после этого я опубликовал информацию о своей работе в своём ЖЖ, который является единственной моей площадкой общения с читателями и интернет-друзьями. Это как-то предосудительно? И я как-то виноват в том, что журналисты захотели опубликовать информацию о моей работе? Пусть они подтвердят – я никому из них не посылал писем или взяток, я лишь отвечал на их вопросы, если они задавались. Если предосудительно общаться со СМИ после опубликования работы, то почему это беспрерывно делает Сергей Попов, большой популяризатор? Если Сергею Попову не понравился мой нелестный общий отзыв о работе «темных энергетиков», то как он оценивает личный выпад Павла Иванова в газете.ру, который публично обвинил меня в математических ошибках, не приведя ни одного факта?

Я сказал соавтору Саше, который чужд ЖЖ-глубинам интернета:
- Саша, а ты знаешь, что нас публично обвиняют в математической ошибке?
- Где? – спросил он. - В каком месте мы ошиблись?
- Обвинители не могут указать - где.
- Они сделали свой расчет?
- Нет.
Саша удивился.
- А как же совесть? И такое понятие, как честь?
- Эх, Саша, в тебе говорит белогвардейское прошлое. Красные давно захватили город! Да и они ушли, отложив роковые яйца – и столько удивительных существ повылупилось в старых советских развалинах…

Теперь расскажу грязную историю про arxiv. 7 июля наша статья по антигравитации появилась на сайте MNRAS. 11 июля я отправил статью в астрономический архив arxiv. Робот принял текст и сообщил, что 13-го июля в полночь по Гринвичу (то есть 12-го июля вечером по американскому времени) он должен появиться на сайте. Но 12-го июля статья не появилась, и была переведена модераторами в состояние «ожидания» или «on hold». На мой вопрос – почему? - модераторы ответили, что «им нужно время». 13 июля статья на сайте MNRAS появилась в финальной форме (с окончательной нумерацией тома, выпуска и страниц). Я сообщил модераторам arxiv, что статья уже вышла, на что мне было отвечено: «да, мы знаем, что она опубликована, но нам нужно больше времени для окончательного решения». Так как моя предыдущая критическая заметка про свежую по времени, но удивительно отсталую по уровню работу Бриллиантова и др. (2015) по распределению частиц в планетных кольцах, была задержана в arxiv на полгода, то я не удивился – и занялся более важными проблемами, только вставил 18 июля в метаданные arxiv-статьи конкретные страницы и номер тома (почему-то это сразу передвинуло срок подачи с 11 на 18-е).
Когда я рассказываю другим учёным, что arxiv модерирует статьи и даже задерживает их – они не верят. Модерация на нерецензируемом сайте, который работает практически автоматически? Первый раз слышим! А слышали ли вы, друзья, о том, чтобы этот сайт отправлял статью, уже принятую в реферируемый журнал, на дополнительную рецензию, чтобы понять – достойна ли она arxiv? Тоже не слышали? А представляете ли вы ситуацию, чтобы модераторы arxiv попробовали торпедировать выпуск уже принятой к печати статьи? Не верите? А я не просто верю – я знаю.
ДальшеCollapse )