На моей предыдущей работе мы оказывали первичную помощь в текстовом чате между врачами и пациентами. Это было по запросу, а это означало, что пациенты могли прийти в любое время и встать в очередь, чтобы пообщаться с врачом. Иногда у нас возникали проблемы, когда пациент мало говорил по-английски, например, если он в основном говорил по-испански.

Так что ты можешь сделать?

  • Вы можете переключиться на телефонный звонок и вызвать переводчика. Это обычно делается в традиционных системах здравоохранения.
  • Если ситуация обычная и предсказуемая, можно спрогнозировать количество испанских посещений и штат двуязычных врачей.
  • Вы можете попросить пациентов заранее запланировать свои визиты к испаноязычным врачам.

Иногда мы говорили о другом варианте: использовать машинный перевод, чтобы наши англоговорящие врачи могли помогать испаноязычным пациентам. Но мы обнаружили, что существующие службы машинного перевода недостаточно хороши.

Я начал изучать это сейчас, когда у меня появилось немного свободного времени. Я начал с некоторой литературы и собираюсь создать демонстрацию и API, которые можно было бы разветвить.

Этот пост подытожит, что я нашел до сих пор, и как я изменил свою точку зрения, когда я учусь. Я надеюсь, что это поможет другим создавать высококачественный машинный перевод для медицины, независимо от того, успешен ли я сам.

Этот пост охватывает несколько тем:

  1. Литература по медицинскому машинному переводу и пользовательскому опыту
  2. Адаптация предметной области для машинного обучения: я начал обзор литературы, но большую часть времени потратил на прежнюю тему
  3. Общедоступные API-интерфейсы перевода: я изучил крупных игроков (AWS, Google, Microsoft)
  4. Пересмотренное мнение о том, каким должен быть медицинский машинный перевод

Надеюсь, вы простите меня за то, что я в одни разделы вложил слишком много, а в другие недостаточно. Это должно быть ранним контрольно-пропускным пунктом.

Машинный перевод в здравоохранении

Поможет ли многоязычный машинный перевод сделать содержание медицинских карт более понятным для пациентов? (2010)

Они оценили качество перевода Babelfish по медицинским картам пациентов. (Примечание: Babelfish — настоящий взрыв из прошлого! Я помню, как использовал его на уроках испанского в 90-х!)

Как правило, переводы были непонятны. Переводы были особенно плохи с медицинской терминологией, и всегда исходные предложения имели сложную грамматику.

Они также упоминают систему машинного перевода Панамериканской организации здравоохранения (PAHOMTS), которая была разработана для английского, испанского и португальского языков. К сожалению, он не был включен в их оценку, потому что не поддерживал все языковые пары, которые они тестировали.

Оценка машинного онлайн-перевода пользователями-медсестрами (2013 г.)

В этой статье исследовался машинный перевод англоязычных публикаций по медсестринскому делу для японских медсестер.

Они провели опрос по почте и получили около 50% ответов. Это шокирующе много по сравнению с опросами, которые я видел! Я привык к 5% или меньше.

Медсестры в целом плохо оценили качество перевода Google Translate с английского на японский, но выше за полезность, чем за разборчивость.

Слова из словарного запаса были большой проблемой. Некоторые из примеров слов были обычными словами с множеством аффиксов, таких как «предварительно идентифицированный» и «неприверженность». (Достаточно забавно, когда я пишу это, Chrome считает эти слова опечатками.) Более длинные предложения также имели худшие оценки, что коррелирует со сложной грамматикой, как и в предыдущей статье.

Изучение местного рабочего процесса общественного здравоохранения в контексте технологий автоматизированного перевода (2013 г.)

В этом документе были опрошены медицинские работники, и в нем содержится много интересных выдержек.

Например, медицинские работники часто говорят об уровне чтения перевода:

несколько LHD подчеркивали необходимость того, чтобы документ был на соответствующем уровне чтения и передал ключевое сообщение. Сотрудники переводили с этой целью и сосредоточились на снижении уровня чтения, переходе на разговорный тон и упрощении медицинской терминологии, которая могла бы сбить с толку человека с минимальным образованием.

Интересно, это уникальная потребность в брошюрах по здравоохранению, или это также желательно в чате?

Как правило, медицинские работники полагались на ручной перевод, хотя иногда они использовали Google Translate для проверки терминологии в крайнем случае. Они много говорили о важности процессов качества и контроля качества.

Когда они не могут найти переводчиков для определенных языков, они часто просто не предоставляют переведенные материалы на этот язык.

Они упоминают базу данных HERE, которая может быть полезным ресурсом:

Мы также специально спросили об использовании H.E.R.E. база данных, которая представляет собой онлайн-информационный центр материалов по санитарному просвещению и укреплению здоровья в штате Вашингтон [9] и является потенциальным местом для LHD в штате Вашингтон для размещения и заимствования переведенных материалов.

Интересно, смогу ли я использовать это для создания параллельного корпуса, выровненного по документам? Я не видел публикаций, которые извлекают уроки из выравнивания на уровне документа, но я уверен, что это выполнимо.

Перевод электронных медицинских записей с английского на испанский: предварительное исследование (2015 г.)

Они упрощают слова и грамматику предложений перед выполнением машинного перевода. Например, они пытаются найти общеизвестный термин для технических терминов и расширить аббревиатуры.

Они обучают систему Moses MT на основе переводов Medline, а также сравнивают с Google Translate и Bing с упрощением и без него.

Для оценки они используют три деидентифицированных заметки EHR. Это не так много данных для оценки, но это лучше, чем ничего. Основная проблема заключается в том, что врачебные заметки часто зависят от автора или больничной системы, но в формулировке и структуре документа.

Они обнаружили, что упрощение плохо сочетается с оценками Блю. Казалось, что он дает лучшие переводы, но с худшими оценками Bleu.

Другие примечания

  • Коммерческий машинный перевод кажется вполне приемлемым для медицинского машинного перевода даже в 2015 году.
  • На самом деле это может быть разумно для коммерческой системы, хотя ее немного сложнее оценить. HTER будет лучшей оценкой такого подхода.

Развитие технологии машинного перевода для помощи в коммуникации о здоровье: систематический обзор (2018)

Это отличный мета-обзор статей за 2006–2016 годы. Там было много хорошего о PAHOMTS, хотя, к сожалению, они не смогли включить его, потому что он был сделан до 2006 года.

Они обнаружили, что машинный перевод недостаточно хорош, чтобы его можно было использовать без профессиональных переводчиков, хотя в некоторых областях он мог бы подойти. Я был очень удивлен, прочитав, что они не увидели существенной разницы в серьезности ошибок, допущенных Google Translate и переводчиками-людьми.

Я считаю, что эта цитата описывает предпочтение адекватности беглости, что я также отмечал в других публикациях:

[30] обнаружили, что пользователи предпочитают менее точную версию своей системы; несовершенные переводы, которые все еще избегают опасных взаимодействий, предпочитались более точным, но ограниченным взаимодействиям.

Эта цитата перекликается с моим опытом создания программного обеспечения для врачей:

В двух исследованиях также подчеркивалась необходимость уделять больше внимания дизайну, основанному на потребностях пользователей, а не на технологических решениях.

Мне понравилось читать, хотя, к сожалению, в клинических условиях была развернута только одна система, а нейронный машинный перевод еще не был доступен.

Использование терминов и связей SNOMED CT для машинного перевода клинических текстов с баскского на испанский (2019)

В настоящее время все клиницисты в Испании вынуждены работать на испанском языке, но они хотят, чтобы баскские клиницисты могли работать на своем родном языке. Поэтому они создают баскско-испанский машинный перевод.

У них есть SNOMED CT на испанском и баскском языках. (Это широко используемая медицинская онтология.) Если я правильно понял, они сгенерировали синтетические данные параллельного обучения, используя предопределенные шаблоны, и заполнили шаблоны терминами SNOMED. Они используют синтетические данные для адаптации систем МТ общего назначения, в основном с использованием архитектур трансформаторов.

Они упоминают о проблемах с переводом названий наркотиков, которые меня удивили. Я предполагаю, что их установка трансформатора ничего не использует для копирования токенов ввода в вывод. Хотя это должно быть поправимо!

Мне показалось интересным, что синтетические обучающие данные не были такими плавными, когда вы их читали, но они были достаточно хороши, чтобы система машинного перевода работала без каких-либо реальных выровненных данных.

Я видел, что этот подход ценен даже для англо-испанского языка. Даже с параллельным корпусом медицинских англо-испанский корпус, вероятно, не будет хорошо охватывать всю медицинскую терминологию. Тем не менее, SNOMED имеет хорошее покрытие, так что это может быть хорошим способом дополнить настоящий параллельный корпус.

Разработка приложения для преодоления языковых барьеров при оказании неотложной медицинской помощи: процесс совместной разработки (2021 г.)

ЕМТ в Германии должны оказывать неотложную помощь в лагерях беженцев пациентам, которые не говорят по-немецки. Эта статья посвящена созданию приложения с участием всех участников, и похоже, что они придумали что-то довольно полезное, хотя машинный перевод вообще не требует многого.

Статья не имела отношения к этому проекту, но многие уроки напомнили мне о моем предыдущем работодателе. Вот несколько примеров:

  • Более старшие ЕМТ, как правило, следовали своему опыту, а не рекомендациям своего образования.
  • Сбор истории не шел в простом линейном порядке и не следовал предсказуемому шаблону.
  • ЕМТ были в восторге от участия в разработке программного обеспечения, но им пришлось узнать, что время разработки ограничено и необходима расстановка приоритетов. Конечный результат был во многом положительным.

Они обнаружили, что закрытые вопросы, такие как «да/нет» или вопросы с несколькими вариантами ответов, были ценны, потому что вопросы и ответы можно было перевести заранее. Это вообще избавляет от необходимости делать живой перевод.

Я мало что вынес из своего проекта машинного перевода, за исключением того, что 1) может быть удобно проверять качество с помощью обратного перевода 2) в реальной системе эффективно найти способы полагаться на офлайн-профессиональный перевод.

Надежное и безопасное использование машинного перевода в медицинских учреждениях (2022 г.)

Это было замечательное чтение, и я не уверен, что смогу отдать ему должное в кратком изложении.

Вот некоторые из основных выводов:

  • Некоторые люди предпочитали перевод на основе фраз. Хотя он был ограничен, они могли доверять ему больше.
  • Врачи иногда используют Google Translate, когда у них нет других вариантов, например, когда поздняя ночь и переводчики недоступны, или когда они обеспокоены тем, что добавление переводчика слишком замедлит их посещение.
  • Полезно повторить пациенту то, что вы услышали, чтобы перепроверить свое понимание.
  • Клиницисты отметили, что даже у профессиональных переводчиков качество бывает разным.
  • Иногда, если профессиональный переводчик говорит намного дольше, чем врач, врач просит уточнить, что именно было сообщено.
  • Существует много дискуссий о риске и ответственности — люди не хотят использовать Google Translate для получения согласия или чего-то действительно важного, но чувствуют себя нормально с ним для сбора истории и других ситуаций с низким уровнем риска.
  • Культурные различия могут еще более затруднить разговор с помощью переводчика, например, если темы, более распространенные в США, были несколько табуированы в культуре пациента.
  • Были проблемы и с медицинской грамотностью — с переводом рассказать пациенту о своем теле еще сложнее.
  • Даже некоторые носители испанского языка использовали Google Translate для перевода определенных слов, например, если они не знали медицинского термина для чего-то. Это звучит правдоподобно с тем, что я слышал — врачи, которые были носителями испанского языка, но не имели медицинской подготовки по испанскому языку, могут не знать терминологию.
  • Пациенты часто просто соглашаются на все, даже если они ничего не понимают, но будут откровенно разговаривать с не-врачом, который является носителем языка. Врачи посчитали, что это связано с разницей во власти
  • Обратный перевод использовался для проверки качества

Многие из их выводов перекликаются с моим опытом. Однако культурные проблемы меня удивили; Я даже не рассматривал это. И также было удивительно услышать некоторое недоверие к профессиональным переводчикам, потому что они часто упоминаются как лучший вариант.

Машинный перевод и взаимодействие с пользователем

Пока я прочитал только одну статью в этой области, но она была настолько хороша, что я должен был включить ее.

Понимание и быть понятым: пользовательские стратегии по выявлению и устранению ошибок перевода в чате, опосредованном машинным переводом (2022 г.)

Это фантастическая статья о пользовательском опыте чата с помощью MT с пользовательским тестированием.

Они организовали онлайн-чаты с помощью машинного перевода между участниками и предложили им выполнить различные задачи. Они могли только читать и писать на своем языке, а машинный перевод использовался автоматически.

Ключевые выводы

  • Люди не всегда знают, когда произошел неправильный перевод, и предполагают, что это не так, поэтому иногда оба человека уходят, думая, что они успешно общались, но это не так!
  • Люди пытаются адаптировать свое письмо, чтобы получить более надежные переводы, например, упрощая свой язык и избегая неформальной лексики. Но на практике они забывали продолжать делать это по ходу разговора.
  • Люди часто приписывают другому человеку странность или грубость, хотя это может быть вызвано системой МТ.
  • Люди, которые понимают оба языка, иногда могут сделать вывод о том, каким должен быть оригинал, даже если они не могут видеть другой язык.
  • Современные системы машинного перевода достаточно хороши в беглости, но не так хороши в адекватности.

Эта часть звучит правильно для меня:

Коммуникация, опосредованная МТ, исторически создавалась таким образом, чтобы быть бесшовной и максимально похожей на чат с кем-то, говорящим на том же языке [52]. Тем не менее, эта бесшовность может на самом деле затруднить выявление и атрибутирование ошибок пользователями, и им будет легче забыть, что МП используется.

Когда я создавал программное обеспечение для врачей, мне было важно убедиться, что они понимают, как оно работает и когда оно надежно.

Адаптация домена для машинного перевода

Самый надежный способ настроить модель для конкретной предметной области — это найти дополнительные данные, но есть подходы, позволяющие извлечь больше пользы из ограниченных данных в предметной области или иным образом уменьшить потребность в исходных данных. Я убедился в этом в своей дипломной работе, а также в отраслевых ролях.

Адаптация неконтролируемого домена для нейронного машинного перевода (Янг и др., 2018)

Я мучился с этой бумагой. Он стремится выполнить неконтролируемую адаптацию домена, но затем использует для этого выровненные данные.

Они используют генеративно-состязательную модель:

  • Генератор: Модель машинного перевода
  • Два дискриминатора: 1) Классификатор домена (вывод в правильном домене) 2) Классификатор пар (является парой перевод)

Обучение

  • Предварительно обучите модель машинного перевода на данных вне домена
  • Они пытаются адаптировать то, что обучено формальному языку, для неформального языка.
  • Результаты похожи на результаты других контролируемых методов адаптации домена.

Основная идея дискриминатора домена имеет смысл, и ее можно обучить на одноязычных данных, которые гораздо легче получить.

MetaMT, метод метаобучения с использованием данных нескольких доменов для малоресурсного машинного перевода (Li et. al., 2020)

Они начинают с модели преобразователя общего назначения с предварительно обученными вложениями слов и кодированием пар байтов (BPE).

Они изучают преобразование вложений слов, чтобы адаптироваться к каждой области. Похоже, что они вычисляют встраивания для конкретной предметной области как взвешивание «базовых» вложений из 10 000 лучших общих слов.

Я читал в этой статье, что он пытается обеспечить точную настройку небольшого корпуса без переобучения, резко ограничивая количество параметров, которые можно точно настроить.

Они добились приличных улучшений по сравнению со стандартной тонкой настройкой.

Общий подход мне понятен — найти или создать небольшое количество параметров для адаптации к предметной области при тонкой настройке. Это был мой опыт адаптации домена к медицинской сфере; что полезно тщательно ограничить количество свободных параметров, чтобы предотвратить переоснащение.

Обзор API

Я не нашел API медицинского машинного перевода. Я предполагаю, что один из крупных поставщиков облачных услуг в конечном итоге сделает его, но они еще этого не сделали.

Переводчик веб-сервисов Amazon

AWS имеет API машинного перевода для языка общего назначения. Он предлагает некоторую настройку:

  • Установить формальность перевода (Справочник)
  • Предоставьте список переопределений перевода терминологии. Это предназначено для таких вещей, как названия брендов, которые иногда являются реальными словами, но часто не должны переводиться. Это просто плоский список. Теоретически это можно использовать для некоторой настройки для медицинской области, но в спецификации API сказано, что всего может быть только 256 записей. ("Ссылка")
  • Активный пользовательский перевод: Предоставьте параллельный корпус для предметной области для адаптации к предметной области. Это поддерживается только для пакетного перевода, время отклика которого составляет от нескольких минут до нескольких дней, поэтому он не подходит для живого чата. Кроме того, стоимость запроса API примерно в 4 раза выше.

Я также изучал самостоятельный машинный перевод на Sagemaker, но шаблоны сейчас немного устарели (пользовательская модель seq2seq в Sagemaker).

Облачный переводчик Google

В Google Cloud есть три решения для перевода:

  • Translation API Basic: это в основном Google Translate, каким мы его знаем.
  • Расширенный API перевода: это добавляет поддержку дополнительных типов документов, пакетных переводов и настраиваемых моделей. Единственная настройка, которую я видел, — это переопределение терминологии, как у AWS, которое они называют глоссариями.
  • Перевод AutoML: это обучает вашу собственную систему машинного перевода, поэтому она предназначена для большей настройки.

Параметр AutoML Translation выглядит так, как будто он может хорошо работать для медицинского машинного перевода. Он начинается с предварительно созданного нейронного машинного перевода Google, а затем адаптируется к вашим данным. И базовая модель, и модель AutoML отображаются в отчетах об оценке!

Переводчик Microsoft Azure Cognitive Services

Похоже, у Azure есть хорошие варианты и для пользовательских моделей.

Вы можете предоставить данные, выровненные по документу, и он соединит предложения за вас! Это было бы здорово, потому что я столкнулся с парой потенциальных источников данных, выровненных по документам.

Система также может использовать одноязычные данные на одном или обоих языках в дополнение к параллельным обучающим данным для улучшения перевода.

^ Это очень интересно… Интересно, они делают обратный перевод для псевдопараллельных данных, или включают языковую модель на целевой стороне, или и то, и другое? Несмотря на это, может быть значительно проще создать умеренно большой корпус медицинских текстов для пациентов на каждом языке.

Мысли об API

Похоже, что у Google Cloud и Microsoft Azure есть хорошие возможности для создания моделей медицинского машинного перевода. Тем не менее, я не уверен, являются ли базовые модели лучшими из доступных или нет. Я уверен, что где-то должно быть сравнение API по шкале Bleu, которое я просто еще не нашел.

Кажется, с API Azure проще работать, потому что вы можете предоставлять данные, выровненные по документам, а также одноязычные данные в домене.

Обзор коммерческого чата, опосредованного МТ

Когда я редактировал этот пост, я наткнулся на несколько коммерческих предложений по бесшовному переводу живого чата и другой поддержки клиентов. По большей части компании интегрируются с существующими платформами обслуживания клиентов, такими как ZenDesk, Salesforce и т. д., и позволяют компании нанимать агентов по обслуживанию клиентов на одном языке с автоматическим переводом на язык клиента.

У KantanAI есть некоторая информация в Интернете. В основном они действуют как плагин к существующим инструментам обслуживания клиентов и выполняют плавный перевод. Перевод осуществляется с участием человека — многие сообщения проходят машинный перевод, но многие другие отправляются профессиональным переводчикам с быстрым ответом. Это создаст для них набор данных и со временем позволит значительно улучшить систему машинного перевода.

У Unbabel также есть некоторая информация в Интернете, такая как кейсы развертывания. Я нашел этот пост интересным, потому что основные моменты от клиента звучали так похоже на приоритеты в управлении персоналом в здравоохранении, например, последствия снижения зависимости от людей, которых трудно нанять. В тексте говорится, что иногда проблемой является время выполнения заказа, поэтому, возможно, это больше связано с поддержкой по электронной почте, а не в чате, или в чате в перегруженном персоналом центре, где время отклика уже не является мгновенным.

У других компаний была возможность заказать только демонстрацию продаж; Я не видел никаких подробностей в Интернете.

Эти компании не упоминают HIPAA или здравоохранение, так что это не начало любого реального приложения в США.

Я также видел упоминания об iTranslate Medical, но не смог попробовать. Единственное работающее приложение для медицинского перевода, которое я нашел для Android, — это Care to translate, которое представляет собой фразу из общих фраз.

Каким может быть медицинский машинный перевод, пересмотрено

Этот раздел представляет собой комбинацию того, что я узнал из статей, с тем, что я знаю из собственного опыта. Если вы знаете о подобных приложениях или думаете, что они не работают, дайте мне знать!

Ключевые принципы:

  • Врачи и пациенты часто знают некоторые языки друг друга, а иногда знают много языков друг друга.
  • Пользователям не нужен «черный ящик» (бесшовный) переводчик, а публикации предполагают, что переводчик «черного ящика» на самом деле вреден.
  • Врачи и пациенты должны иметь некоторое представление о работе системы, чтобы понимать, когда ей можно доверять. И рекомендации FDA также подталкивают к этому, например, см. Резюме рекомендаций от сентября 2022 г. для программного обеспечения для поддержки принятия клинических решений.
  • Врачи могут принимать десятки пациентов в день, в то время как пациенты обычно посещают их два раза в год. Таким образом, у врачей будет гораздо больше опыта работы с системой, чем у пациентов, и это может привести к различным потребностям каждого пользователя.
  • Адекватность более важна, чем беглость в реальном выполнении задач
  • Когда это уместно, лучше полагаться на офлайн, профессиональный перевод
  • Врачи умны и мотивированы, а также несут почти всю ответственность за ошибки

Я часто обнаруживал, что более эффективно сосредоточиться на помощи врачам, а не на самой автоматизации. Поэтому мне интересно, не лучше ли было бы научить врачей эффективно работать на испанском языке? Это удержало бы врачей «на месте водителя» и поддержало бы врачей, которые знают испанский язык, но не знают медицинских терминов.

Это несколько большой разворот от того, как я изначально думал, и мне придется прочитать о пользовательском опыте приложений для изучения языков, таких как Duolingo. А пока я могу подытожить свой опыт пользователя Duolingo, яростно изучающего японский для поездки:

  • Он продвигает вас от простого к сложному как с точки зрения концепций, так и с точки зрения поддержки программного обеспечения.
  • Приложение использует интервальные повторения, чтобы побудить вас запоминать информацию.
  • Когда в нем используется слово, которое вы никогда раньше не видели, оно выделяется и побуждает вас щелкнуть по нему.
  • Вы можете щелкнуть по словам, и он покажет перевод слова, а также фразу, в которой оно находится.

Возвращаясь к моему проекту МТ, я думаю, что врачи будут продвигаться по системе уровней с легкой геймификацией:

  1. Первоначально врач читает и пишет по-английски. Когда они читают, он показывает испанский язык пациента с выходом машинного перевода на английском языке из нескольких дополнительных систем.
  2. Когда врач читает, он сможет щелкнуть английские слова, чтобы увидеть выровненный испанский и определения. Точно так же они могли щелкнуть по испанским словам, чтобы увидеть выравнивание и определения. Это был бы слабый сигнал, указывающий на мастерство (но он не может быть единственным). Слова, которые могут быть «новыми» для врача, выделены, как Duolingo, чтобы побудить их прочитать определение. Со временем это станет реже — может быть, одно или два новых слова в чате.
  3. Врач начинает более уверенно читать по-испански, поэтому английские переводы по умолчанию скрыты. Им нужно будет щелкнуть, чтобы увидеть переводы. Эти данные о кликах используются как слабый сигнал об их знании слов/фраз.
  4. Существует отдельная прогрессия для навыков письма. Сначала они писали на английском, смотрели несколько испанских переводов с английскими обратными переводами и выбирали тот, который они предпочитают.
  5. Через некоторое время врач пишет несколько сообщений на испанском языке с соответствующей проверкой орфографии/грамматики и видит несколько обратных переводов для проверки.
  6. В конечном итоге врач пишет в основном на испанском, но обратные переводы по умолчанию скрыты. Они могут щелкнуть, чтобы просмотреть обратные переводы, которые используются как слабый сигнал о квалификации и медицинской важности.

Я еще не во всем разобрался — между шагами 4 и 5 существует огромный пробел в письменной части. У меня не так много идей о том, как поэтапно научиться писать во время беседы с пациентом, за исключением, может быть, опоры на стандартные фразы. или шаблоны.

Пользовательский интерфейс будет использовать маленькие значки для простой проверки качества:

  • Золотой флажок: Пара (источник, цель) появляется в базе данных профессионально одобренных переводов.
  • Зеленый флажок: целевой объект выполняет обратный перевод точно в исходный.

Я подозреваю, что вы увидите больше флажков, если будете использовать короткие простые предложения, чтобы «обучить» пользователей немного приспосабливаться к системе машинного перевода, не задумываясь об этом слишком много.

Те же концепции применимы к опыту пациента, но у пациентов не будет системы повышения уровня владения языком. Таким образом, пациенты получат несколько переводов, возможность видеть выравнивание, определения и легкие сигналы качества.

Важно, чтобы пациент и врач работали совместно, чтобы общаться:

  • Покажите пациенту владение языком врача, чтобы он мог адаптироваться по мере необходимости
  • Дополните текстовый чат реакциями на эмодзи, такими как Slack.
  • Упростите запрос разъяснений по слову или фразе в дополнение к поиску в словаре.

Дополнительные технические примечания:

  • По возможности используйте несколько взаимодополняющих систем, одну на основе фразы, по крайней мере одну NMT. Также обязательно включите вариант без учета акцента, потому что очень часто опускают акценты при наборе испанского языка на мобильных устройствах.
  • Добавляйте названия лекарств в списки, которые нельзя переводить, или используйте механизм копирования
  • Готовые API-интерфейсы, вероятно, не обеспечивают выравнивание своих переводов на выходе, поэтому эту идею может быть сложнее реализовать.

В коммерческих условиях, я думаю, потребуется больше:

  • Врачам понадобится «экстренная кнопка», если они не смогут оказать высококачественную помощь, что приведет к обострению ситуации.
  • Нам потребуются процессы улучшения качества, такие как профессиональные переводчики, которые просматривают журналы чатов с врачами и помогают им совершенствоваться. В идеале они могли бы ставить «большой палец вверх» или «против» перевода, что улучшало бы обучающие данные.
  • Я также полагаю, что будет гораздо больше полагаться на стандартизированный контент, но я, вероятно, не доберусь до этого в демоверсии.

Преимущества педагогического подхода к МТ:

  • Врачи и пациенты лучше информированы о том, стоит ли доверять системе
  • Это может быть «частично включено» для испаноязычных врачей, которые не помнят медицинские термины.
  • Это создаст более многоязычную рабочую силу, что упростит подбор персонала (прогнозы не должны быть такими точными, больше возможностей для обмена сменами и т. д.).

Недостатки педагогического подхода к МТ:

  • Врачи, как правило, очень заняты и чувствительны ко времени. Найдется ли достаточно врачей, готовых немного замедлиться, чтобы выучить испанский язык?
  • Это еще не все, что нужно реализовать и поддерживать — есть несколько интеграций машинного перевода и интеграция со словарями перевода. Код выравнивания будет еще одной частью, которую нужно поддерживать.
  • Отображение нескольких переводов и обратных переводов может занимать много места на экране и добавлять когнитивную нагрузку по сравнению с бесшовным MT.

Дополнительные опасения:

  • Изучение словарного запаса — это одно, но врачам также необходимо выучить спряжение глаголов, согласование полов, грамматику и т. д. Чем мы можем помочь?
  • Как облегчить установление взаимопонимания? Это может быть сложно в текстовой системе

Несмотря на недостатки, я думаю, что это было бы улучшением по сравнению с бесшовным чатом, опосредованным MT. Настоящий вопрос заключается в том, смогу ли я создать что-то достаточно хорошее, чтобы некоторые клиницисты предпочли его переводчикам по телефону.

Следующие шаги

Написание этого заняло больше времени, чем я ожидал, и я надеюсь, что вы поможете мне исправить ошибки и заполнить пробелы.

Помимо этого, мне нужно 1) прочитать больше 2) начать пробовать существующие API 3) создать набор данных 4) изучить двуязычные словари. Было бы неплохо поэкспериментировать и с реальными реализациями трансформеров, как только у меня появятся разумные исходные данные.

Чтение списка желаний

  • UX для приложений для изучения языков, таких как Duolingo
  • UX для чата, опосредованного MT — найдите и прочитайте больше
  • Попробуйте PAHOMTS и/или прочитайте об этом
  • Лучшие практики для построения корпусов — я подозреваю, что мне может понадобиться создать небольшой корпус в предметной области для этой работы, и я мог бы узнать, как строятся большие корпуса.
  • Модели машинного перевода для диалогов. Большинство исследований машинного перевода посвящено переводу предложений, но я уверен, что итеративный перевод разговора как документа может принести определенные выгоды. Например, слово может быть двусмысленным в одном предложении, но не в предыдущем предложении.
  • Более простые подходы к адаптации домена
  • Прочтите о пользовательском опыте мессенджера Facebook M — я думаю, что они выпустили чат, опосредованный MT, некоторое время назад, но с тех пор я ничего не слышал.
  • Читать через https://machinetranslate.org/
  • Просмотрите материалы WMT этого года, если они доступны

Данные

Источники данных, которые я видел, упоминались до сих пор:

  • Medline перевела тезисы
  • У WMT есть медицинский англо-испанский трек, кажется, я видел в WMT 16?
  • База переведенных памфлетов ЗДЕСЬ в WA (а должны быть и другие подобные!)
  • Онтологии SNOMED/ICD с синтетической генерацией данных для сложной терминологии

Также должны быть некоторые медицинские веб-страницы, которые переведены, и я уверен, что есть документы о том, как очистить их для параллельных текстов.