Category: наука

2016-01

В теории, теория и практика - это одно и то же, а на практике...

[English version: https://medium.com/@oleksandr_now/in-theory-theory-and-practice-are-the-same-in-practice-however-46fd663f8e7b ]

Во всем этом модном data science есть большая засада.

Подготовка датасетов звучит совсем не модно и не круто, и про нее мало пишут. Даже люди из индустрии, не говоря уже о академии. Более того, иногда в пейперах проскакивают вещи от которых у меня вообще волосы дыбом подымаются.

Что-то вроде "мы выкинули все что у нас не отпарсилось", а как насчет того, что "не парсится" - это всегда смещенная неслучайная выборка? Которая смещает остальной датасет тоже далеко не случайным образом?

Ладно, как оно смещает саму статистику - это дело хозяйское и на совести авторов, конечно. Но еще это от входа означает что результаты пейпера, а то и алгоритм в принципе, маловероятно что применим в продакшне.

Например, "мы можем парсить 98% слов из аудио правильно" это звучит замечательно, пока ты не узнаешь что в 2% входят например названия улиц или номера телефонов, потому что они не словарные (out of vocabulary)
И на реальной задаче эти 2% слов превращаются в "70% диалогов не получилось отпарсить".

Самих академиков тоже можно понять, им пейпер написать надо, а не пытаться обьять необьятное, конечно. Но вот эта пропасть между теорией и практикой создает очень искаженное впечатление, и последующий шок у людей, которые переходят от теории к применению этой самой теории.

Да и индустрия тоже не спешит это как-то закрывать, потому что из-за того самого искаженного впечатления оно ни разу не является бизнес-нишей, люди не готовы платить за решение этой проблемы, потому что ее вроде бы как и нет вовсе. Пока ты с ней сам не столкнешься.

И вот у меня есть хороший программистский бэкграунд, чтобы с этим справляться, но что советовать людям, у которых опыта меньше - как-то пока непонятно совсем. Есть идеи?

This entry was originally posted at http://wizzard.dreamwidth.org/482707.html. It has comment count unavailable comments. Please comment there using OpenID.
2016-01

Змеемыши

Оригинал взят у vadim_proskurin в Змеемыши
Большая команда американских генетиков (в списке присутствуют исконно американские фамилии Камнева и Рубин) детально исследовала генетический механизм, посредством которого змеи утратили ноги. Непосредственной причиной, как оказалось, стала утрата одним геном сайта связывания, на который садится транскрипционный фактор, который должен запускать рост ног у змеиного эмбриона:



В эксперименте ученые применили ту же мутацию к мышам, получились безногие змеемыши. А когда у змеемышей восстанавливали утраченные 16 нуклеотидов, змеемыши снова становились нормальными ногастыми мышами.

Хомка грядет.

2016-01

ох, и в arXiv'e завелись вахтеры...

ох, и в arXiv'e завелись вахтеры...

Оригинал взят у don_beaver в "Тёмные энергетики" контратакуют и проигрывают
Идёт второй месяц после публикации нашей антигравитационной работы. Спасибо всем, кто участвовал в научной дискуссии и поддержал. А вот наши оппоненты не раз удивили меня с самых разных сторон.

Например, дфмн Сергей Попов обвинил меня в неэтичности: «Не может быть никакой научной дискуссии в ЖЖ и СМИ. И Горькавый поступил не этично с научной точки зрения, принеся все это в блоги. В случае с Горькавым возмущает именно его апелляция к "общественному мнению", а не к экспертам, который он просто сходу оскорбляет (почитайте интервью в Газете.ру)».
Попов обвинил меня в этом… в своём ЖЖ, где активно обсуждается научное содержание моей статьи. Странно это всё. Я донес свою точку зрения до научного сообщества самым общепринятым способом – опубликовав статью в реферируемом журнале MNRAS. И только после этого я опубликовал информацию о своей работе в своём ЖЖ, который является единственной моей площадкой общения с читателями и интернет-друзьями. Это как-то предосудительно? И я как-то виноват в том, что журналисты захотели опубликовать информацию о моей работе? Пусть они подтвердят – я никому из них не посылал писем или взяток, я лишь отвечал на их вопросы, если они задавались. Если предосудительно общаться со СМИ после опубликования работы, то почему это беспрерывно делает Сергей Попов, большой популяризатор? Если Сергею Попову не понравился мой нелестный общий отзыв о работе «темных энергетиков», то как он оценивает личный выпад Павла Иванова в газете.ру, который публично обвинил меня в математических ошибках, не приведя ни одного факта?

Я сказал соавтору Саше, который чужд ЖЖ-глубинам интернета:
- Саша, а ты знаешь, что нас публично обвиняют в математической ошибке?
- Где? – спросил он. - В каком месте мы ошиблись?
- Обвинители не могут указать - где.
- Они сделали свой расчет?
- Нет.
Саша удивился.
- А как же совесть? И такое понятие, как честь?
- Эх, Саша, в тебе говорит белогвардейское прошлое. Красные давно захватили город! Да и они ушли, отложив роковые яйца – и столько удивительных существ повылупилось в старых советских развалинах…

Теперь расскажу грязную историю про arxiv. 7 июля наша статья по антигравитации появилась на сайте MNRAS. 11 июля я отправил статью в астрономический архив arxiv. Робот принял текст и сообщил, что 13-го июля в полночь по Гринвичу (то есть 12-го июля вечером по американскому времени) он должен появиться на сайте. Но 12-го июля статья не появилась, и была переведена модераторами в состояние «ожидания» или «on hold». На мой вопрос – почему? - модераторы ответили, что «им нужно время». 13 июля статья на сайте MNRAS появилась в финальной форме (с окончательной нумерацией тома, выпуска и страниц). Я сообщил модераторам arxiv, что статья уже вышла, на что мне было отвечено: «да, мы знаем, что она опубликована, но нам нужно больше времени для окончательного решения». Так как моя предыдущая критическая заметка про свежую по времени, но удивительно отсталую по уровню работу Бриллиантова и др. (2015) по распределению частиц в планетных кольцах, была задержана в arxiv на полгода, то я не удивился – и занялся более важными проблемами, только вставил 18 июля в метаданные arxiv-статьи конкретные страницы и номер тома (почему-то это сразу передвинуло срок подачи с 11 на 18-е).
Когда я рассказываю другим учёным, что arxiv модерирует статьи и даже задерживает их – они не верят. Модерация на нерецензируемом сайте, который работает практически автоматически? Первый раз слышим! А слышали ли вы, друзья, о том, чтобы этот сайт отправлял статью, уже принятую в реферируемый журнал, на дополнительную рецензию, чтобы понять – достойна ли она arxiv? Тоже не слышали? А представляете ли вы ситуацию, чтобы модераторы arxiv попробовали торпедировать выпуск уже принятой к печати статьи? Не верите? А я не просто верю – я знаю.
Collapse )

photo25

Проблема тысячелетия, или теория оперденей (репост)

Мой коммент: п.8 невозможен, т.к. данные и наборы инвариантов регулярно расходятся с реальным миром по вине реального мира; зато должна быть возможность быстро и удобно (полуавтоматически, с наглядной визуализацией результатов своих действий) это корректировать.

В общем случае, поскольку мир меняется быстро, это означает, что у пользователей должна быть возможность учить программы; а у программ - учить пользователей. И нет, это не означает "ограничиться интерфейсами для тупых". А вот как непосвящённых пользователей быстро догонять до уровня, когда они могут эффективно с программой взаимодействовать - это большой вопрос.

Оригинал взят у jakobz в Проблема тысячелетия
Если обобщить две трети юзкейсов, которые бывают, то получатся какие-то такие требования:
1. Программы не должны ебать мозг
2. Когда я использую программу, у меня не должно ухудшаться настроение
3. В программы, как правило, надо печатать буквы и цифры
4. Нужно приложить все усилия, чтобы исключить п. 3.
5. Несовместимость пунктов 1, 2 и 3 - решается человеками вне программы. Как правило за п. 3 платят деньги чтобы компенсировать пп. 1 и 2.
6. Программы должны решать чьи буквы и цифры главнее
7. Программы не должны проебать напечатанное (следствие пп. 1 и 2)
8. Программы должны не давать нарушать инварианты внутри напечатанных данных
9. Программы должны уметь дружить между собой - должно быть просто использовать буквы и цифры, напечатанные в одной программе, в другой программе
10. Напечатанные буквы и цифры программы должны складывать, находить среднее, или строить по ним нейросети и предсказывать будущее

Под это дело подпадает половина всего ПО в мире: от todo-списков, через багтрекеры, до всех корпоративных приложений. Вы не видите этого из своих айфонов, но оно есть - в каждой большой компании есть десять своих 1С-ок.

Индустрии - лет уже сто наверное. Но она ни на йоту не приблизилась к тому, чтобы этот вопрос закрыть раз и навсегда. И даже не идет в этом направлении.

Вся тысяча виданных мною заходов решить эту проблему раз и навсегда - от ms access до всех CRM и всех вариантов 1C - либо не про это, либо говно и хуйня.

Короче, зачем я это все пишу: если кто что видал в тему - киньте ссылку. Либо троллить пойду, либо работать устраиваться. Это вопрос, которому я собираюсь посвятить остаток своей карьеры.

2016-01

Уровни бытия по Грейвсу (вольный перевод)

Эээ, только не спрашивайте, зачем. Вообще я увидел, что есть несколько переводов, и от всех у меня выпадают глаза, вот решил тоже перевести.

Нюанс, таблицу не стоит воспринимать как "классы" или "степени", т.к. высшие уровни редко адекватно работают без низших, да и не исключают их.

#Метод обучения/познания Мышление Мнение о миро­устройстве Восприятие общества Система мотиваций Мотива­то­ры Методы Высшая цель Характе­рные стре­мле­ния
1Привыка­ние (ходи­ть, есть, говорить) Рефлекто­рное Не осознаё­тся Отрыво­чное Физиологи­ческая Голод, сон и т.д. Нет (только реакции) Не осознаё­тся Подде­ржка гомео­стаза
2Услов­ные рефле­ксы Защи­тное (избега­ние) Непоня­тный, таинстве­нный, волше­бный, часто вра­жде­бный мир Племена Убеждения Уют, страх, комфорт Следова­ние ритуа­лам Безопа­сность Сбива­ться в стаи, зада­бри­вать духов
3Обучение с поощре­нием Эго­центри­чное Банка с пауками Империя Выжива­ние Уважение, слава Эксплуа­та­ция Получить Власть; познать себя Бороться, невзи­рая на окружа­ющих
4Избега­ние наказа­ния Абсо­лю­тизм, приня­тие догм, правил Иера­рхи­ческое Пирами­да Увере­нно­сть в будущем Порядок, высший смысл Жертвы и самопо­же­ртво­ва­ние Спастись, обрести вечное спокой­ствие Подчини­ться высшей власти/силе, сохра­нить верность, обрести спо­кой­ствие
5Предска­за­ние Множество логиче­ских/физиче­ских моделей Мате­ри­а­лизм Право­вое общество Индиви­дуа­лизм Адеква­тно­сть, компете­нтность Научный метод Рекорды, достиже­ния, проры­вы, откры­тия Покоре­ние вселе­нной, перве­нство
6Созерцание Относи­те­ль­ное, конте­кстное Социо­це­нтри­чное, персо­на­лизи­рова­нное Раве­нство, равно­пра­вие Любовь, подде­ржка Подде­ржка, одобре­ние Взаимо­помощь, совме­стная деятель­но­сть Гармони­чное обще­ство Присо­еди­ниться к обще­ству для совме­стно­го разви­тия
7Системный анализ Системное Части­чно упра­вля­емый хаос Много­гра­нное, инте­гри­рова­нное Экзисте­нци­ализм Самоце­нно­сть

Принятие; отказ от иллюзий

Аутенти­чное бытиё и созида­ние Осозна­нный поиск принципов, сохраня­ю­щий даль­ней­шую свободу их выбора
8Холисти­ческое Диффере­нци­рова­нное Сложный баланс взаимо­дей­ст­вующих систем Все уровни социума Осозна­нное еди­нство Участие Пребыва­ние и единство Бытиё и реали­за­ция холисти­ческой системы Принятие противо­ре­чий, холи­сти­че­ская реали­за­ция само­цен­но­сти индиви­ду­ума, мира и общества
#Метод обучения/познания Мышление Мнение о миро­устройстве Восприятие общества Система мотиваций Мотива­то­ры Методы Высшая цель Характе­рные стре­мле­ния

Ух, столько мягких дефисов я еще ни разу не вставлял.

Источники: 1, 2, 3, 4,

This entry was originally posted at http://wizzard.dreamwidth.org/404706.html. It has comment count unavailable comments. Please comment there using OpenID.
photo24

Есть ли жизнь на Земле?

Оригинал взят у jayrandom в Есть ли жизнь на Земле?

В 1960 г. при подготовке запуска первой автоматической станции к Марсу в составе научного оборудования на станции предполагалось разместить аппарат (спектрорефлексометр), должный определить, есть ли на Марсе вода, а тем самым — есть ли на Марсе жизнь. Келдыш предложил испытать прибор в земных условиях. Прибор показал, что на Земле нет жизни, и был снят, что дало экономию в 12 килограммов (по воспоминаниям Б. Е. Чертока)

-- http://ru.wikipedia.org/wiki/Келдыш,_Мстислав_Всеволодович