The world is not in your books and maps. It’s out there!
Текст: Александр Шамшиев
Профессор Гарольд Сомерс – автор книг по машинному переводу, изучает языковую инженерию, более десяти лет посвятил исследованиям переводчика Google и других языковых программ, в свободное время играет на гитаре в любительской рок-группе.
читать дальше– Мистер Сомерс, что, на ваш взгляд, делает машинный перевод успешным?
– Когда вы рассчитываете получить перевод текста, который иначе никак не прочтёте, для этого машинный перевод подойдёт. Даже если перевод не получится идеальным, в целом вы уловите смысл. Например, вы интересуетесь футболом и желаете узнать, что бразильские газеты говорят о чемпионате мира, но не читаете по-португальски: переводчик сможет хотя бы дать примерное представление, о чём идёт речь. Скажем, рады они или нет. Разумеется, качество перевода не позволит вам его публиковать где-нибудь. Вы отдаёте себе отчёт в несовершенстве результата. Плохим использованием будет перевод с непонятного вам языка важного и «чувствительного» текста – отчёта врача, договора или политической речи. Подобное я бы даже Google не доверил.
– Это как Мадонна оконфузилась пару лет назад. После концерта она хотела оставить послание для русских поклонников. «Привет, дорогие фанаты» ей перевели в «привет, дорогие вентиляторы».
– Неудивительно. У очень коротких фраз больше шансов быть переведёнными неправильно. Машинам нужны длинные фразы, чтобы уловить контекст. Так больше вероятность получить удовлетворительный результат. Причём необязательно требуется более сложная фраза, главное – чтобы подлиннее. «Привет, дорогие фанаты» – всего три слова. С математической точки зрения, если Google точен на 60%, во фразе из трёх слов одно будет неверным. Если бы она написала «привет, дорогие фанаты моих песен», сдаётся мне, перевели бы правильно. За «песню» машина зацепится, чтобы понять смысл.
– Зависит ли качество машинного перевода от образованности автора и литературности текста?
– Не совсем. То есть очевидно, что безграмотные тексты проблематично переводить. Также переводчик Google плохо обходится с шутками, переносным смыслом, сленгом и жаргоном.
– Но ведь именно так люди в основном общаются в интернете.
– Расскажу историю, правда, с другого переводчика. Он использовался в чате. Разработчики поступили умно. Главный принцип любого переводчика – натренировать машину на тип текста, который вы собираетесь переводить в дальнейшем. Так устроены все программы. Для этого берут массивы переведённого текста. Рассматривая их, машина «учится» переводить. Она может выучить только то, что «увидела». Если обучите её языку, который используется в чате, она сможет его верно перевести.
– То есть как попугай: говорит только то, что слышал ранее?
– Да.
– И как вы их натаскиваете? Загружаете словари или литературные произведения?
– Нет-нет. Мы собираем как можно больше данных в формате параллельных текстов, то есть текст и его перевод. Оттуда можно вычленять пары отдельных слов и – что важнее – словесных групп. Компьютеры обучаются находить соответствия между ними. Поэтому мы не грузим словари. Возьмём пример той же Мадонны. В словарях базовое значение слова fan – «вентилятор». Если смотреть исключительно тексты про поп-музыку, базовое значение fan – «фанат, поклонник». Будешь использовать словарь – ошибёшься. Если учитывать тип текста – будет нормальный перевод.
– Как вы оцениваете нынешнее качество работы программ-переводчиков?
– Хороши ли они? Скажу так: лично я часто их использую. Когда я летел к вам, мне хотелось узнать про регион с туристической точки зрения. Информации на английском совсем чуть-чуть, зато куча на русском. Вот я хотел глянуть, какие бы советы давали русским туристам. Вдруг им говорят то, чего не говорят иностранцам? Я перевёл с помощью Google. Качеством перевод не блистал, но мне хватило. Я узнал много нового, а так бы вообще ничего не понял.
– А читать зарубежные СМИ?
– Читать можно, только цитировать – на свой страх и риск. Хотите узнать мнение арабской прессы о войне в Сирии – без проблем. Однако если вы журналист или аналитик и собираетесь использовать информацию в профессиональных целях – вам понадобится человек.
Часто приходится сталкиваться с завышенными ожиданиями пользователей. Корявость перевода приводит их в ужас, после чего они отказываются от услуг машинного перевода вообще. В этом плане чересчур завышенные ожидания – это наша проблема.
– Реально достичь уровня, когда различия между переводами, выполненными человеком и машиной, будут минимальны?
– Наверное, у меня романтические и старомодные взгляды, но я считаю, что есть в переводе нечто, для чего необходимы человеческие навыки. Речь ведь идёт не только о передаче значения слов, но и о верной и наилучшей подаче смысла. Вряд ли машинам когда-либо это удастся. Я вижу несколько путей развития электронных переводчиков. В современном мире люди перемещаются гораздо больше, чем раньше. Есть множество беженцев и мигрантов. На Западе это большая проблема. Как я слышал, в России – тоже. Люди попадают в чужую среду, не владеют её языком, либо владеют плохо. В случае болезни им надо идти к врачу, а врач их не понимает. Я как раз разрабатывал алгоритмы устройств, которые помогли бы им общаться. Технология сложнее, чем для прогноза погоды, но то, что вам необходимо узнать у врача или сказать ему, тоже ограничено определёнными рамками.
От другой сферы применения машинного перевода я бы сейчас не отказался как турист. Представьте смартфон с камерой. Видите надпись в меню или вывеску – наводите мобильник, фотографируете, затем нажимаете другую клавишу – получаете перевод. Пару лет назад я видел демонстрацию таких девайсов. Откровенно говоря, не знаю, почему их ещё не начали массово выпускать.
– Русский легко переводить?
– Легче в том, что из-за наличия у вас суффиксов, окончаний, падежей и склонений в русском меньше двусмысленности. В этом плане переводить с русского проще и точнее. Но по той же причине сложнее, наоборот, переводить на русский. И мы видим, что в этом Google часто путается.
– Язык развивается со временем. Машины поспевают за ним?
– Как раз здесь проблем нет. Для изменений грамматики требуются сотни лет. Меняется словарь, слова могут внезапно приобретать новые значения, но машины усваивают быстро.
По материалам kaliningrad.kp.ru
Профессор Гарольд Сомерс – автор книг по машинному переводу, изучает языковую инженерию, более десяти лет посвятил исследованиям переводчика Google и других языковых программ, в свободное время играет на гитаре в любительской рок-группе.
читать дальше– Мистер Сомерс, что, на ваш взгляд, делает машинный перевод успешным?
– Когда вы рассчитываете получить перевод текста, который иначе никак не прочтёте, для этого машинный перевод подойдёт. Даже если перевод не получится идеальным, в целом вы уловите смысл. Например, вы интересуетесь футболом и желаете узнать, что бразильские газеты говорят о чемпионате мира, но не читаете по-португальски: переводчик сможет хотя бы дать примерное представление, о чём идёт речь. Скажем, рады они или нет. Разумеется, качество перевода не позволит вам его публиковать где-нибудь. Вы отдаёте себе отчёт в несовершенстве результата. Плохим использованием будет перевод с непонятного вам языка важного и «чувствительного» текста – отчёта врача, договора или политической речи. Подобное я бы даже Google не доверил.
– Это как Мадонна оконфузилась пару лет назад. После концерта она хотела оставить послание для русских поклонников. «Привет, дорогие фанаты» ей перевели в «привет, дорогие вентиляторы».
– Неудивительно. У очень коротких фраз больше шансов быть переведёнными неправильно. Машинам нужны длинные фразы, чтобы уловить контекст. Так больше вероятность получить удовлетворительный результат. Причём необязательно требуется более сложная фраза, главное – чтобы подлиннее. «Привет, дорогие фанаты» – всего три слова. С математической точки зрения, если Google точен на 60%, во фразе из трёх слов одно будет неверным. Если бы она написала «привет, дорогие фанаты моих песен», сдаётся мне, перевели бы правильно. За «песню» машина зацепится, чтобы понять смысл.
– Зависит ли качество машинного перевода от образованности автора и литературности текста?
– Не совсем. То есть очевидно, что безграмотные тексты проблематично переводить. Также переводчик Google плохо обходится с шутками, переносным смыслом, сленгом и жаргоном.
– Но ведь именно так люди в основном общаются в интернете.
– Расскажу историю, правда, с другого переводчика. Он использовался в чате. Разработчики поступили умно. Главный принцип любого переводчика – натренировать машину на тип текста, который вы собираетесь переводить в дальнейшем. Так устроены все программы. Для этого берут массивы переведённого текста. Рассматривая их, машина «учится» переводить. Она может выучить только то, что «увидела». Если обучите её языку, который используется в чате, она сможет его верно перевести.
– То есть как попугай: говорит только то, что слышал ранее?
– Да.
– И как вы их натаскиваете? Загружаете словари или литературные произведения?
– Нет-нет. Мы собираем как можно больше данных в формате параллельных текстов, то есть текст и его перевод. Оттуда можно вычленять пары отдельных слов и – что важнее – словесных групп. Компьютеры обучаются находить соответствия между ними. Поэтому мы не грузим словари. Возьмём пример той же Мадонны. В словарях базовое значение слова fan – «вентилятор». Если смотреть исключительно тексты про поп-музыку, базовое значение fan – «фанат, поклонник». Будешь использовать словарь – ошибёшься. Если учитывать тип текста – будет нормальный перевод.
– Как вы оцениваете нынешнее качество работы программ-переводчиков?
– Хороши ли они? Скажу так: лично я часто их использую. Когда я летел к вам, мне хотелось узнать про регион с туристической точки зрения. Информации на английском совсем чуть-чуть, зато куча на русском. Вот я хотел глянуть, какие бы советы давали русским туристам. Вдруг им говорят то, чего не говорят иностранцам? Я перевёл с помощью Google. Качеством перевод не блистал, но мне хватило. Я узнал много нового, а так бы вообще ничего не понял.
– А читать зарубежные СМИ?
– Читать можно, только цитировать – на свой страх и риск. Хотите узнать мнение арабской прессы о войне в Сирии – без проблем. Однако если вы журналист или аналитик и собираетесь использовать информацию в профессиональных целях – вам понадобится человек.
Часто приходится сталкиваться с завышенными ожиданиями пользователей. Корявость перевода приводит их в ужас, после чего они отказываются от услуг машинного перевода вообще. В этом плане чересчур завышенные ожидания – это наша проблема.
– Реально достичь уровня, когда различия между переводами, выполненными человеком и машиной, будут минимальны?
– Наверное, у меня романтические и старомодные взгляды, но я считаю, что есть в переводе нечто, для чего необходимы человеческие навыки. Речь ведь идёт не только о передаче значения слов, но и о верной и наилучшей подаче смысла. Вряд ли машинам когда-либо это удастся. Я вижу несколько путей развития электронных переводчиков. В современном мире люди перемещаются гораздо больше, чем раньше. Есть множество беженцев и мигрантов. На Западе это большая проблема. Как я слышал, в России – тоже. Люди попадают в чужую среду, не владеют её языком, либо владеют плохо. В случае болезни им надо идти к врачу, а врач их не понимает. Я как раз разрабатывал алгоритмы устройств, которые помогли бы им общаться. Технология сложнее, чем для прогноза погоды, но то, что вам необходимо узнать у врача или сказать ему, тоже ограничено определёнными рамками.
От другой сферы применения машинного перевода я бы сейчас не отказался как турист. Представьте смартфон с камерой. Видите надпись в меню или вывеску – наводите мобильник, фотографируете, затем нажимаете другую клавишу – получаете перевод. Пару лет назад я видел демонстрацию таких девайсов. Откровенно говоря, не знаю, почему их ещё не начали массово выпускать.
– Русский легко переводить?
– Легче в том, что из-за наличия у вас суффиксов, окончаний, падежей и склонений в русском меньше двусмысленности. В этом плане переводить с русского проще и точнее. Но по той же причине сложнее, наоборот, переводить на русский. И мы видим, что в этом Google часто путается.
– Язык развивается со временем. Машины поспевают за ним?
– Как раз здесь проблем нет. Для изменений грамматики требуются сотни лет. Меняется словарь, слова могут внезапно приобретать новые значения, но машины усваивают быстро.
По материалам kaliningrad.kp.ru
@темы: переводческое